論文の概要: Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2505.15075v4
- Date: Sat, 26 Jul 2025 14:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.449341
- Title: Traveling Across Languages: Benchmarking Cross-Lingual Consistency in Multimodal LLMs
- Title(参考訳): 言語横断の旅:マルチモーダルLLMにおける言語間一貫性のベンチマーク
- Authors: Hao Wang, Pinzhi Huang, Jihan Yang, Saining Xie, Daisuke Kawahara,
- Abstract要約: KnowRecallとVisRecallの2つの新しいベンチマークを紹介します。
KnowRecallは15の言語における事実的知識の一貫性を測定するために設計された視覚的質問応答ベンチマークである。
VisRecallは、画像にアクセスすることなく、9つの言語でランドマークの外観を記述するようモデルに求めることで、ビジュアルメモリの一貫性を評価する。
- 参考スコア(独自算出の注目度): 38.26693373272882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of multimodal large language models (MLLMs) has significantly enhanced their real-world applications. However, achieving consistent performance across languages, especially when integrating cultural knowledge, remains a significant challenge. To better assess this issue, we introduce two new benchmarks: KnowRecall and VisRecall, which evaluate cross-lingual consistency in MLLMs. KnowRecall is a visual question answering benchmark designed to measure factual knowledge consistency in 15 languages, focusing on cultural and historical questions about global landmarks. VisRecall assesses visual memory consistency by asking models to describe landmark appearances in 9 languages without access to images. Experimental results reveal that state-of-the-art MLLMs, including proprietary ones, still struggle to achieve cross-lingual consistency. This underscores the need for more robust approaches that produce truly multilingual and culturally aware models.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進化により、実際の応用が大幅に向上した。
しかし、特に文化知識の統合において、言語間で一貫したパフォーマンスを達成することは、依然として大きな課題である。
この問題をよりよく評価するために,MLLMの言語間整合性を評価するKnowRecallとVisRecallという2つの新しいベンチマークを導入する。
KnowRecall(ノウリコール)は、15の言語における事実的知識の一貫性を測定するために設計された視覚的質問応答ベンチマークである。
VisRecallは、画像にアクセスすることなく、9つの言語でランドマークの外観を記述するようモデルに求めることで、ビジュアルメモリの一貫性を評価する。
実験の結果、プロプライエタリなMLLMを含む最先端のMLLMは、言語間の一貫性を達成するのに依然として苦労していることが明らかとなった。
これは、真に多言語で文化的に認識されたモデルを生成する、より堅牢なアプローチの必要性を浮き彫りにする。
関連論文リスト
- MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks [25.75895667904485]
MCIF (Multimodal Crosslingual Instruction following) は、科学的な議論に基づく最初の多言語人手によるベンチマークである。
MCFは、音声、視覚、テキストの3つの中核モダリティと4つの多言語(英語、ドイツ語、イタリア語、中国語)にまたがる。
MLLMの言語間の命令を解釈し、それをマルチモーダルな文脈情報と組み合わせることで、包括的なMLLMの能力の評価を可能にする。
論文 参考訳(メタデータ) (2025-07-25T19:00:51Z) - Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。
5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。
我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文 参考訳(メタデータ) (2025-03-13T15:59:20Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Evaluating Knowledge-based Cross-lingual Inconsistency in Large Language Models [16.942897938964638]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示している。
彼らの成功にもかかわらず、これらのモデルはしばしば異なる言語で同じ概念を処理する際に大きな矛盾を示す。
本研究は,LLMにおける言語間不整合の存在,これらの不整合が現れる特定の側面,LLMの言語間整合性と多言語機能との相関の3つの主要な疑問に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-01T15:11:37Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.096332588720052]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
第3に、多言語表現の最先端研究について調査し、現在のMLLMが普遍言語表現を学べるかどうかを検討する。
第4に,MLLMのカテゴリ,評価指標,脱バイアス技術などのバイアスについて論じる。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - MELA: Multilingual Evaluation of Linguistic Acceptability [7.524375463656369]
言語アクセプタビリティの多言語評価 -- MELA -- 10言語を対象とする46Kのサンプルを用いて、言語アクセプタビリティに関する最も大きなベンチマークを提示する。
多言語解釈可能性の追求において, 微調整XLM-Rを用いた探索実験を行った。
言語間移動実験は、受容可能性判定における伝達が非自明であることを示す。
論文 参考訳(メタデータ) (2023-11-15T15:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。