論文の概要: VLURes: Benchmarking VLM Visual and Linguistic Understanding in Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2510.12845v1
- Date: Tue, 14 Oct 2025 01:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.357498
- Title: VLURes: Benchmarking VLM Visual and Linguistic Understanding in Low-Resource Languages
- Title(参考訳): VLURes: 低リソース言語におけるVLMの視覚的および言語的理解のベンチマーク
- Authors: Jesse Atuhurra, Iqra Ali, Tomoya Iwakura, Hidetaka Kamigaito, Tatsuya Hiraoka,
- Abstract要約: 本稿では,8つの視覚・言語タスクと,非関連タスクの先駆的機能を備えた新しいベンチマークVLUReを紹介する。
我々のデータセットには10の多様な画像カテゴリとリッチテキストコンテキストが含まれており、スワヒリ語とウルドゥー語に貴重な視覚言語リソースを導入しています。
最高のパフォーマンスモデルであるGPT-4oは、全体的な精度を90.8%、人間のパフォーマンスを6.7%向上させるが、オープンソースモデルでは差が大きい。
- 参考スコア(独自算出の注目度): 28.434129158759877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) are pivotal for advancing perception in intelligent agents. Yet, evaluation of VLMs remains limited to predominantly English-centric benchmarks in which the image-text pairs comprise short texts. To evaluate VLM fine-grained abilities, in four languages under long-text settings, we introduce a novel multilingual benchmark VLURes featuring eight vision-and-language tasks, and a pioneering unrelatedness task, to probe the fine-grained Visual and Linguistic Understanding capabilities of VLMs across English, Japanese, and low-resource languages, Swahili, and Urdu. Our datasets, curated from web resources in the target language, encompass ten diverse image categories and rich textual context, introducing valuable vision-language resources for Swahili and Urdu. By prompting VLMs to generate responses and rationales, evaluated automatically and by native speakers, we uncover performance disparities across languages and tasks critical to intelligent agents, such as object recognition, scene understanding, and relationship understanding. We conducted evaluations of ten VLMs with VLURes. The best performing model, GPT-4o, achieves an overall accuracy of 90.8% and lags human performance by 6.7%, though the gap is larger for open-source models. The gap highlights VLURes' critical role in developing intelligent agents to tackle multi-modal visual reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、知的エージェントの知覚を促進するために重要である。
しかし、VLMの評価は、画像テキスト対が短いテキストからなる英語中心のベンチマークに限られている。
VLMの細粒度化能力を評価するために、長文設定下での4言語において、8つの視覚・言語タスクと未関連タスクを備えた新しい多言語ベンチマークVLUReを導入し、英語、日本語、低リソース言語、スワヒリ語、ウルドゥー語にまたがるVLMの詳細な視覚・言語理解能力を探索する。
対象言語のWebリソースからキュレートされたデータセットは、10の多様な画像カテゴリとリッチテキストコンテキストを含み、SwahiliとUrduに貴重なビジョン言語リソースを導入しています。
VLMに応答と合理性を生成するよう促すことで、自動およびネイティブスピーカーによって評価され、私たちは、オブジェクト認識、シーン理解、関係理解といった知的エージェントに不可欠な言語やタスクのパフォーマンス格差を明らかにする。
VLUresを用いた10個のVLMの評価を行った。
最高のパフォーマンスモデルであるGPT-4oは、全体的な精度を90.8%、人間のパフォーマンスを6.7%向上させるが、オープンソースモデルでは差が大きい。
このギャップは、マルチモーダルな視覚的推論に取り組むインテリジェントエージェントを開発する上で、VLUResが重要な役割を担っていることを浮き彫りにする。
関連論文リスト
- The AI Language Proficiency Monitor -- Tracking the Progress of LLMs on Multilingual Benchmarks [0.0]
我々は、最大200言語にわたる大規模言語モデル(LLM)のパフォーマンスを評価する包括的なベンチマークであるAI Language Monitorを紹介した。
FLORES+, MMLU, GSM8K, TruthfulQA, ARCなどのデータセットを用いて, 翻訳, 質問応答, 数学, 推論などのタスクを集約した。
私たちは、研究者、開発者、政策立案者をサポートし、モデルパフォーマンスの強さとギャップを識別する、オープンソースの自動更新型リーダボードとダッシュボードを提供しています。
論文 参考訳(メタデータ) (2025-07-11T12:38:02Z) - Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - MUG-Eval: A Proxy Evaluation Framework for Multilingual Generation Capabilities in Any Language [26.88208349402451]
本稿では,大規模言語モデルの多言語生成能力を評価する新しいフレームワークMUG-Evalを提案する。
既存のベンチマークを会話タスクに変換し、それらのタスクに対するLCMの精度を測定します。
高、中、低リソースのカテゴリにまたがる30言語にわたる8つのLLMを評価し、MUG-Evalが確立されたベンチマークと強く相関していることを見出した。
論文 参考訳(メタデータ) (2025-05-20T14:14:00Z) - Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models [25.088717058818528]
9つの視覚・言語(VL)タスクを導入し、4つの言語(英語、日本語、スワヒリ語、ウルドゥー語)で多言語視覚テキストデータセットを構築した。
我々の研究はスワヒリ語とウルドゥー語でこのような分析を行った最初のものである。また、VL分析におけるテクストレーションを導入し、評価において重要な役割を担った。
論文 参考訳(メタデータ) (2024-03-29T10:53:07Z) - Finer: Investigating and Enhancing Fine-Grained Visual Concept Recognition in Large Vision Language Models [57.95366341738857]
詳細な分析では、命令調整されたLVLMはモダリティギャップを示し、同じ概念に対応するテキスト入力と視覚入力の相違を示す。
我々は,LVLMの細粒度視覚理解能力を評価するために,複数の属性中心評価ベンチマークであるFinerを提案し,説明可能性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-26T05:43:51Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。