論文の概要: Lost in Translation: Do LVLM Judges Generalize Across Languages?
- arxiv url: http://arxiv.org/abs/2604.19405v1
- Date: Tue, 21 Apr 2026 12:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.76616
- Title: Lost in Translation: Do LVLM Judges Generalize Across Languages?
- Title(参考訳): 翻訳の損失:LVLM判事は全言語を一般化するのか?
- Authors: Md Tahmid Rahman Laskar, Mohammed Saidul Islam, Mir Tafseer Nayeem, Amran Bhuiyan, Mizanur Rahman, Shafiq Joty, Enamul Hoque, Jimmy Huang,
- Abstract要約: MM-JudgeBenchは,マルチリンガルおよびマルチモーダルの判断モデル評価のための,最初の大規模ベンチマークである。
MM-JudgeBenchには、25のタイプ的多種多様な言語にまたがる60万以上のペアの好みインスタンスが含まれている。
LVLMを22個評価することにより,提案するベンチマークにおいて,言語間性能のかなりのばらつきを明らかにした。
- 参考スコア(独自算出の注目度): 46.119587015038746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic evaluators such as reward models play a central role in the alignment and evaluation of large vision-language models (LVLMs). Despite their growing importance, these evaluators are almost exclusively assessed on English-centric benchmarks, leaving open the question of how well these evaluators generalize across languages. To answer this question, we introduce MM-JudgeBench, the first large-scale benchmark for multilingual and multimodal judge model evaluation, which includes over 60K pairwise preference instances spanning 25 typologically diverse languages. MM-JudgeBench integrates two complementary subsets: a general vision-language preference evaluation subset extending VL-RewardBench, and a chart-centric visual-text reasoning subset derived from OpenCQA, enabling systematic analysis of reward models (i.e., LVLM judges) across diverse settings. We additionally release a multilingual training set derived from MM-RewardBench, disjoint from our evaluation data, to support domain adaptation. By evaluating 22 LVLMs (15 open-source, 7 proprietary), we uncover substantial cross-lingual performance variance in our proposed benchmark. Our analysis further shows that model size and architecture are poor predictors of multilingual robustness, and that even state-of-the-art LVLM judges exhibit inconsistent behavior across languages. Together, these findings expose fundamental limitations of current reward modeling and underscore the necessity of multilingual, multimodal benchmarks for developing reliable automated evaluators.
- Abstract(参考訳): 報酬モデルのような自動評価器は、大きな視覚言語モデル(LVLM)のアライメントと評価において中心的な役割を果たす。
その重要性が増しているにもかかわらず、これらの評価者は英語中心のベンチマークでほぼ独占的に評価され、これらの評価者が言語全体にわたってどのように一般化するかという疑問が残る。
MM-JudgeBenchは多言語および多モーダルな判断モデル評価のための最初の大規模ベンチマークであり、25言語にまたがる60万以上のペアワイドな選好インスタンスを含む。
MM-JudgeBenchは、VL-RewardBenchを拡張した一般的な視覚言語嗜好評価サブセットと、OpenCQAから派生したチャート中心の視覚テキスト推論サブセットの2つの補完サブセットを統合し、様々な設定で報酬モデル(LVLM審査員)の体系的な分析を可能にする。
また,MM-RewardBenchから派生した多言語学習セットを評価データから分離し,ドメイン適応を支援する。
22のLVLM(15のオープンソース、7のプロプライエタリ)を評価することにより、提案するベンチマークにおいて、言語間性能のかなりのばらつきを明らかにする。
さらに, モデルサイズとアーキテクチャが多言語的堅牢性の予測因子として不十分であること, 最先端のLVLM審査員でさえ言語間の一貫性のない振る舞いを示すこと, などを明らかにした。
これらの結果は、現在の報酬モデルの基本的限界を明らかにし、信頼性の高い自動評価器を開発するための多言語・マルチモーダルベンチマークの必要性を強調している。
関連論文リスト
- M-Prometheus: A Suite of Open Multilingual LLM Judges [65.63858815169924]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。
M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文 参考訳(メタデータ) (2025-04-07T11:37:26Z) - MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models [3.961168847961322]
MM-Evalは18の言語と122の言語にまたがる言語一貫性サブセットをカバーする多言語メタ評価ベンチマークである。
MM-Evalのコア属性は、既存の英語メタ評価ベンチマークを単に翻訳するのではなく、多言語固有の課題を念頭に設計されていることである。
その結果、英語の文脈で優れている既存の評価者は、非英語の出力を評価する際に、かなりの改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-23T06:04:55Z) - M-RewardBench: Evaluating Reward Models in Multilingual Settings [33.44919953094607]
我々は、M-RewardBenchというマルチリンガルRM評価ベンチマークを構築した。
M-RewardBenchは23の類型的に多様な言語に対する2.87kの好みのインスタンスで構成されている。
RMの性能が向上し,翻訳品質が向上したことを示す。
論文 参考訳(メタデータ) (2024-10-20T22:09:44Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Evaluating Multiway Multilingual NMT in the Turkic Languages [11.605271847666005]
本研究では、テュルク語族に属する22言語における機械翻訳システムの訓練と評価のための最先端手法の評価を行う。
我々は,26のバイリンガルベースラインと,コーパスを用いたマルチウェイニューラルMT(MNMT)モデルを訓練し,自動測定と人的評価を用いた広範囲な解析を行った。
MNMTモデルは、ドメイン外テストセットのほとんど全てのバイリンガルベースラインより優れており、単一のペアの下流タスクでモデルを微調整することで、大きなパフォーマンス向上がもたらされる。
論文 参考訳(メタデータ) (2021-09-13T19:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。