論文の概要: CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation
- arxiv url: http://arxiv.org/abs/2407.01081v1
- Date: Mon, 1 Jul 2024 08:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:19:31.944296
- Title: CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation
- Title(参考訳): CVLUE:中国の視覚言語理解評価のためのベンチマークデータセット
- Authors: Yuxuan Wang, Yijun Liu, Fei Yu, Chen Huang, Kexin Li, Zhiguo Wan, Wanxiang Che,
- Abstract要約: 我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
- 参考スコア(独自算出の注目度): 49.41531871253317
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the rapid development of Chinese vision-language models (VLMs), most existing Chinese vision-language (VL) datasets are constructed on Western-centric images from existing English VL datasets. The cultural bias in the images makes these datasets unsuitable for evaluating VLMs in Chinese culture. To remedy this issue, we present a new Chinese Vision- Language Understanding Evaluation (CVLUE) benchmark dataset, where the selection of object categories and images is entirely driven by Chinese native speakers, ensuring that the source images are representative of Chinese culture. The benchmark contains four distinct VL tasks ranging from image-text retrieval to visual question answering, visual grounding and visual dialogue. We present a detailed statistical analysis of CVLUE and provide a baseline performance analysis with several open-source multilingual VLMs on CVLUE and its English counterparts to reveal their performance gap between English and Chinese. Our in-depth category-level analysis reveals a lack of Chinese cultural knowledge in existing VLMs. We also find that fine-tuning on Chinese culture-related VL datasets effectively enhances VLMs' understanding of Chinese culture.
- Abstract(参考訳): 中国語ビジョン言語モデル(VLM)の急速な発展にもかかわらず、既存の中国語ビジョン言語(VL)データセットの多くは、既存の英語VLデータセットから西洋中心の画像に基づいて構築されている。
画像の文化的バイアスは、これらのデータセットを中国の文化におけるVLMの評価に適さないものにしている。
この問題を解決するために,我々は,対象カテゴリと画像の選択が中国語話者によって完全に駆動され,ソースイメージが中国語文化を代表することを保証する,新しい中国語ビジョン言語理解評価(CVLUE)ベンチマークデータセットを提案する。
このベンチマークには、画像テキスト検索から視覚的質問応答、視覚的接地、視覚的対話までの4つの異なるVLタスクが含まれている。
本稿では,CVLUE の詳細な統計解析を行い,CVLUE と英語対応のオープンソース多言語 VLM を用いてベースライン性能解析を行い,その性能差を明らかにする。
我々の詳細なカテゴリーレベルの分析は、既存のVLMにおける中国の文化知識の欠如を明らかにしている。
また,中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
関連論文リスト
- ChineseSimpleVQA -- "See the World, Discover Knowledge": A Chinese Factuality Evaluation for Large Vision Language Models [38.921977141721605]
我々は,中国語で「 ChineseSimpleVQA」というファクトリティに基づく視覚質問応答ベンチマークを初めて導入した。
このベンチマークの主な特徴は、中国語、多様な知識タイプ、マルチホップ質問の構築、高品質なデータ、静的な一貫性、短い回答による評価、などである。
論文 参考訳(メタデータ) (2025-02-17T12:02:23Z) - OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training [5.372706159579268]
OpenCSG Chinese Corpusは、中国語の訓練用に特別に設計された高品質なデータセットである。
本発明のコーパスは、Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese、Smoltalk-chineseを含む。
OpenCSG Chinese Corpusの特徴は、高品質なテキスト、ドメイン間の多様なカバレッジ、スケーラブルで再現可能なデータキュレーションプロセスである。
論文 参考訳(メタデータ) (2025-01-14T15:22:47Z) - Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。
これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。
XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-12-23T18:48:04Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration [31.684544472009918]
本稿では,文化的なVLMベンチマークを構築するための半自動フレームワークを提案する。
このフレームワークは人間とVLMのコラボレーションを組み合わせ、VLMはガイドライン、注釈付きサンプルの小さなセット、関連する知識に基づいて質問を生成し、続いてネイティブスピーカーによる検証プロセスを実行する。
韓国文化に焦点を当てたデータセットであるK-Viscuitの作成を通じて,この枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-24T09:18:15Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models [25.088717058818528]
9つの視覚・言語(VL)タスクを導入し、4つの言語(英語、日本語、スワヒリ語、ウルドゥー語)で多言語視覚テキストデータセットを構築した。
我々の研究はスワヒリ語とウルドゥー語でこのような分析を行った最初のものである。また、VL分析におけるテクストレーションを導入し、評価において重要な役割を担った。
論文 参考訳(メタデータ) (2024-03-29T10:53:07Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。