論文の概要: MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge
- arxiv url: http://arxiv.org/abs/2604.18164v2
- Date: Tue, 21 Apr 2026 15:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.942967
- Title: MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge
- Title(参考訳): MM-JudgeBias:MLLM-as-a-Judgeにおける構成バイアス評価ベンチマーク
- Authors: Sua Lee, Sanghee Park, Jinbae Im,
- Abstract要約: MLLM(Multimodal Large Language Models)は、MLLM-as-a-Judgeとして知られるパラダイムである自動評価器として、ますます使われている。
多くのMLLM判事は、重要な視覚的またはテキスト的手がかりを確実に統合することができず、証拠の欠如や不一致が原因で信頼性の低い評価が得られない。
MM-JudgeBiasは、クエリ、イメージ、レスポンスにまたがる制御された摂動を導入し、2つの補完的なメトリクスを通してモデル行動を評価する。
- 参考スコア(独自算出の注目度): 6.343070599367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、MLLM-as-a-Judgeとして知られるパラダイムである自動評価器として、ますます使われている。
しかしながら、彼らの信頼性とバイアスの脆弱性は未調査のままである。
多くのMLLM審査員は、重要な視覚的・テキスト的手がかりを確実に統合することができず、証拠の欠落や不一致時に信頼性の低い評価を得られず、意味的に無関係な摂動の下で不安定を示す。
そこで我々は,MLLM-as-a-Judgeシステムにおける構成バイアスを体系的に定義し,その評価ベンチマークであるMM-JudgeBiasを導入する。
MM-JudgeBiasは、クエリ、イメージ、レスポンスにまたがる制御された摂動を導入し、2つの相補的なメトリクスを通してモデル行動を評価する。
29のソースベンチマークから得られた1,800以上のキュレートおよび改良されたマルチモーダルサンプルのデータセットは、さまざまなタスクやドメインにまたがる9種類のバイアスの詳細な診断を可能にします。
26の最先端MLLMの実験では、体系的なモダリティの無視と非対称な評価傾向が示され、より信頼性の高い審査員の必要性が強調された。
関連論文リスト
- Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation [20.16938320120462]
M-JudgeBenchはMLLMの判断能力を総合的に評価する能力指向のベンチマークである。
judge-MCTSはデータ構築フレームワークであり、様々な正確さと長さのペアの推論軌道を生成する。
本研究は,MLLM-as-a-judgeをM-JudgeBench および judge-MCTS フレームワークで評価するための,より原則化された基盤を確立する。
論文 参考訳(メタデータ) (2026-02-28T08:49:22Z) - UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning [101.62386137855704]
本稿では,Universal Multimodal Embedding (UniME-V2)モデルを提案する。
提案手法はまず,グローバル検索による潜在的な負のセットを構築する。
次に、MLLMを用いてクエリ候補対のセマンティックアライメントを評価するMLLM-as-a-Judge機構を提案する。
これらのスコアは、ハード・ネガティブ・マイニングの基礎となり、偽陰性の影響を緩和し、多様な高品質なハード・ネガティブの識別を可能にする。
論文 参考訳(メタデータ) (2025-10-15T13:07:00Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Judging with Many Minds: Do More Perspectives Mean Less Prejudice? On Bias Amplifications and Resistance in Multi-Agent Based LLM-as-Judge [70.89799989428367]
我々は、位置バイアス、冗長性バイアス、チェーンオブ思考バイアス、バンドワゴンバイアスの4つの多様なバイアスタイプを体系的に分析する。
広く採用されているマルチエージェントLLM-as-JudgeフレームワークであるMulti-Agent-DebateとLLM-as-Meta-Judgeでこれらのバイアスを評価する。
論文 参考訳(メタデータ) (2025-05-26T03:56:41Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - ProJudge: A Multi-Modal Multi-Discipline Benchmark and Instruction-Tuning Dataset for MLLM-based Process Judges [13.957207630090064]
ProJudgeBenchはMLLMベースのプロセス判断器の能力を評価するために設計された最初のベンチマークである。
ProJudgeBenchは2,400件のテストケースと50,118件のステップレベルラベルで構成され、4つの科学分野にまたがっている。
ProJudgeBenchの評価は、オープンソースのモデルとプロプライエタリなモデルの間の大きなパフォーマンスギャップを明らかにしている。
論文 参考訳(メタデータ) (2025-03-09T10:55:51Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。