論文の概要: CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation
- arxiv url: http://arxiv.org/abs/2407.01081v1
- Date: Mon, 1 Jul 2024 08:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:19:31.944296
- Title: CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation
- Title(参考訳): CVLUE:中国の視覚言語理解評価のためのベンチマークデータセット
- Authors: Yuxuan Wang, Yijun Liu, Fei Yu, Chen Huang, Kexin Li, Zhiguo Wan, Wanxiang Che,
- Abstract要約: 我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
- 参考スコア(独自算出の注目度): 49.41531871253317
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the rapid development of Chinese vision-language models (VLMs), most existing Chinese vision-language (VL) datasets are constructed on Western-centric images from existing English VL datasets. The cultural bias in the images makes these datasets unsuitable for evaluating VLMs in Chinese culture. To remedy this issue, we present a new Chinese Vision- Language Understanding Evaluation (CVLUE) benchmark dataset, where the selection of object categories and images is entirely driven by Chinese native speakers, ensuring that the source images are representative of Chinese culture. The benchmark contains four distinct VL tasks ranging from image-text retrieval to visual question answering, visual grounding and visual dialogue. We present a detailed statistical analysis of CVLUE and provide a baseline performance analysis with several open-source multilingual VLMs on CVLUE and its English counterparts to reveal their performance gap between English and Chinese. Our in-depth category-level analysis reveals a lack of Chinese cultural knowledge in existing VLMs. We also find that fine-tuning on Chinese culture-related VL datasets effectively enhances VLMs' understanding of Chinese culture.
- Abstract(参考訳): 中国語ビジョン言語モデル(VLM)の急速な発展にもかかわらず、既存の中国語ビジョン言語(VL)データセットの多くは、既存の英語VLデータセットから西洋中心の画像に基づいて構築されている。
画像の文化的バイアスは、これらのデータセットを中国の文化におけるVLMの評価に適さないものにしている。
この問題を解決するために,我々は,対象カテゴリと画像の選択が中国語話者によって完全に駆動され,ソースイメージが中国語文化を代表することを保証する,新しい中国語ビジョン言語理解評価(CVLUE)ベンチマークデータセットを提案する。
このベンチマークには、画像テキスト検索から視覚的質問応答、視覚的接地、視覚的対話までの4つの異なるVLタスクが含まれている。
本稿では,CVLUE の詳細な統計解析を行い,CVLUE と英語対応のオープンソース多言語 VLM を用いてベースライン性能解析を行い,その性能差を明らかにする。
我々の詳細なカテゴリーレベルの分析は、既存のVLMにおける中国の文化知識の欠如を明らかにしている。
また,中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
関連論文リスト
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals [17.24821720084663]
我々は,大言語モデルと視覚言語モデルによる漢字の視覚的要素の理解を評価する。
我々の結果は、モデルが驚くほど、しかしまだ限られた、視覚情報に関する知識を誇示していることを示している。
我々は、ラジカルに関する追加情報を提供する際に、パートオフ音声タグ付けにおける一貫した改善を観察する。
論文 参考訳(メタデータ) (2024-10-11T17:30:02Z) - Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration [31.684544472009918]
本稿では,文化的なVLMベンチマークを構築するための,半きめ細かいパイプラインを提案する。
VLMモデルは、ガイドライン、人間による注釈付き例、画像関連知識に基づいて質問を生成する。
このパイプラインは、K-Viscuitと呼ばれる韓国の文化に合わせてデータセットを作成するという、特定のアプリケーションを通じて実証されている。
論文 参考訳(メタデータ) (2024-06-24T09:18:15Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models [25.088717058818528]
9つの視覚・言語(VL)タスクを導入し、4つの言語(英語、日本語、スワヒリ語、ウルドゥー語)で多言語視覚テキストデータセットを構築した。
我々の研究はスワヒリ語とウルドゥー語でこのような分析を行った最初のものである。また、VL分析におけるテクストレーションを導入し、評価において重要な役割を担った。
論文 参考訳(メタデータ) (2024-03-29T10:53:07Z) - ICU: Conquering Language Barriers in Vision-and-Language Modeling by
Dividing the Tasks into Image Captioning and Language Understanding [1.9906814758497542]
ICUは、V&Lタスクを2段階に分割する: V&Lモデルが英語で画像キャプションを行い、マルチ言語モデル(mLM)がそのキャプションをaltテキストとして取り、言語間理解を行う。
ICUは5つの言語に対して新しい最先端の結果が得られ、残りの言語では同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-10-19T07:11:48Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。