Fugu-MT 論文翻訳(概要): CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

論文の概要: CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

arxiv url: http://arxiv.org/abs/2407.01081v1
Date: Mon, 1 Jul 2024 08:35:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 22:19:31.944296
Title: CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation
Title（参考訳）: CVLUE:中国の視覚言語理解評価のためのベンチマークデータセット
Authors: Yuxuan Wang, Yijun Liu, Fei Yu, Chen Huang, Kexin Li, Zhiguo Wan, Wanxiang Che,
Abstract要約: 我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
参考スコア（独自算出の注目度）: 49.41531871253317
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Despite the rapid development of Chinese vision-language models (VLMs), most existing Chinese vision-language (VL) datasets are constructed on Western-centric images from existing English VL datasets. The cultural bias in the images makes these datasets unsuitable for evaluating VLMs in Chinese culture. To remedy this issue, we present a new Chinese Vision- Language Understanding Evaluation (CVLUE) benchmark dataset, where the selection of object categories and images is entirely driven by Chinese native speakers, ensuring that the source images are representative of Chinese culture. The benchmark contains four distinct VL tasks ranging from image-text retrieval to visual question answering, visual grounding and visual dialogue. We present a detailed statistical analysis of CVLUE and provide a baseline performance analysis with several open-source multilingual VLMs on CVLUE and its English counterparts to reveal their performance gap between English and Chinese. Our in-depth category-level analysis reveals a lack of Chinese cultural knowledge in existing VLMs. We also find that fine-tuning on Chinese culture-related VL datasets effectively enhances VLMs' understanding of Chinese culture.
Abstract（参考訳）: 中国語ビジョン言語モデル(VLM)の急速な発展にもかかわらず、既存の中国語ビジョン言語(VL)データセットの多くは、既存の英語VLデータセットから西洋中心の画像に基づいて構築されている。画像の文化的バイアスは、これらのデータセットを中国の文化におけるVLMの評価に適さないものにしている。この問題を解決するために,我々は,対象カテゴリと画像の選択が中国語話者によって完全に駆動され,ソースイメージが中国語文化を代表することを保証する,新しい中国語ビジョン言語理解評価(CVLUE)ベンチマークデータセットを提案する。このベンチマークには、画像テキスト検索から視覚的質問応答、視覚的接地、視覚的対話までの4つの異なるVLタスクが含まれている。本稿では,CVLUE の詳細な統計解析を行い,CVLUE と英語対応のオープンソース多言語 VLM を用いてベースライン性能解析を行い,その性能差を明らかにする。我々の詳細なカテゴリーレベルの分析は、既存のVLMにおける中国の文化知識の欠如を明らかにしている。また,中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。

関連論文リスト

Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文参考訳（メタデータ） (2025-06-13T14:23:38Z)
TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。 TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文参考訳（メタデータ） (2025-05-16T14:10:41Z)
VisTW: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan [20.92636353621876]
本稿では,従来の中国語における視覚言語モデル(VLM)の総合評価ベンチマークを提案する。評価スイートは,VisTW-MCQとVisTW-Dialogueの2つの相補的なコンポーネントを含む。
論文参考訳（メタデータ） (2025-03-13T14:49:35Z)
ChineseSimpleVQA -- "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.921977141721605]
我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文参考訳（メタデータ） (2025-02-17T12:02:23Z)
Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。 XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文参考訳（メタデータ） (2024-12-23T18:48:04Z)
WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文参考訳（メタデータ） (2024-10-16T16:11:49Z)
The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals [17.24821720084663]
我々は,大言語モデルと視覚言語モデルによる漢字の視覚的要素の理解を評価する。我々の結果は、モデルが驚くほど、しかしまだ限られた、視覚情報に関する知識を誇示していることを示している。我々は、ラジカルに関する追加情報を提供する際に、パートオフ音声タグ付けにおける一貫した改善を観察する。
論文参考訳（メタデータ） (2024-10-11T17:30:02Z)
Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration [31.684544472009918]
本稿では,文化的なVLMベンチマークを構築するための,半きめ細かいパイプラインを提案する。 VLMモデルは、ガイドライン、人間による注釈付き例、画像関連知識に基づいて質問を生成する。このパイプラインは、K-Viscuitと呼ばれる韓国の文化に合わせてデータセットを作成するという、特定のアプリケーションを通じて実証されている。
論文参考訳（メタデータ） (2024-06-24T09:18:15Z)
See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文参考訳（メタデータ） (2024-06-17T15:49:51Z)
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。 CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。 CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文参考訳（メタデータ） (2024-06-10T01:59:00Z)
What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文参考訳（メタデータ） (2024-04-03T02:40:35Z)
Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models [25.088717058818528]
9つの視覚・言語(VL)タスクを導入し、4つの言語(英語、日本語、スワヒリ語、ウルドゥー語)で多言語視覚テキストデータセットを構築した。我々の研究はスワヒリ語とウルドゥー語でこのような分析を行った最初のものである。また、VL分析におけるテクストレーションを導入し、評価において重要な役割を担った。
論文参考訳（メタデータ） (2024-03-29T10:53:07Z)
ICU: Conquering Language Barriers in Vision-and-Language Modeling by Dividing the Tasks into Image Captioning and Language Understanding [1.9906814758497542]
ICUは、V&Lタスクを2段階に分割する: V&Lモデルが英語で画像キャプションを行い、マルチ言語モデル(mLM)がそのキャプションをaltテキストとして取り、言語間理解を行う。 ICUは5つの言語に対して新しい最先端の結果が得られ、残りの言語では同等の結果が得られることを示す。
論文参考訳（メタデータ） (2023-10-19T07:11:48Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。