論文の概要: When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias
- arxiv url: http://arxiv.org/abs/2604.17768v1
- Date: Mon, 20 Apr 2026 03:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.67877
- Title: When Vision-Language Models Judge Without Seeing: Exposing Informativeness Bias
- Title(参考訳): 視覚言語モデルで判断する:インフォマティヴネスのバイアスを露呈する
- Authors: Xiaohan Zou, Roshan Sridhar, Mohammadtaher Safarzadeh, Dan Roth,
- Abstract要約: VLM-as-a-Judgeは意思決定時にイメージに限られた注意を払っていることがよく示されます。
BIRCHは、まず、候補解における画像内容との整合性を補正し、その解答をこの補正版と比較する。
実験の結果、BIRCHは情報バイアスを最大17%削減し、パフォーマンスは最大9.8%向上した。
- 参考スコア(独自算出の注目度): 43.30506300153804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reliability of VLM-as-a-Judge is critical for the automatic evaluation of vision-language models (VLMs). Despite recent progress, our analysis reveals that VLM-as-a-Judge often pays limited attention to the image when making decisions. Instead, they often blindly favor the more informative answer, even when they can recognize it conflicts with the image content. We call this problem informativeness bias, which significantly undermines judge reliability. To address it, we propose BIRCH (Balanced Informativeness and CoRrectness with a Truthful AnCHor), a judging paradigm that first corrects inconsistencies with the image content in candidate answers, and then compares the answers against this corrected version. This shifts the judge's focus from informativeness to image-grounded correctness. Experiments on multiple models and benchmarks show that BIRCH reduces informativeness bias by up to 17%, resulting in performance gains of up to 9.8%. Our work reveals an overlooked but fundamental flaw in current VLM-as-a-Judge systems and highlights the need for more principled designs.
- Abstract(参考訳): VLM-as-a-Judgeの信頼性は視覚言語モデル(VLM)の自動評価に不可欠である。
近年の進歩にもかかわらず、VLM-as-a-Judgeは意思決定の際に画像に限られた注意を払っていることが判明した。
むしろ彼らは、画像の内容と矛盾していると認識できたとしても、より情報的な答えを盲目的に支持することが多い。
我々はこの問題を情報バイアスと呼び、判断の信頼性を著しく損なう。
そこで本研究では,BIRCH(Balanced Informativeness and CoRrectness with a Truthful AnCHor)を提案する。
これにより、裁判官の焦点は情報的真偽から画像的正当性へとシフトする。
複数のモデルとベンチマークの実験により、BIRCHは情報バイアスを最大17%削減し、パフォーマンスは最大9.8%向上した。
我々の研究は、現在のVLM-as-a-Judgeシステムに見過ごされているが根本的な欠陥を明らかにし、より原則化された設計の必要性を強調している。
関連論文リスト
- Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis [95.89328387635176]
画像編集のための細粒度マルチモーダル大言語モデル (MLLM)-as-a-Judge フレームワークを提案する。
本稿では,人間の判断,MLLMに基づく評価,モデル出力,従来のメトリクスを統合した人為的評価ベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-13T15:34:32Z) - Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment [8.451522319478512]
各種コンセントから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
その結果, (i) 視覚的文脈は, モデル出力をオープンエンド設定で体系的に変化させる; (ii) バイアスの頻度は属性やモデルによって異なり, 特に性別や職業のリスクが高い; (iii) より高い忠実度は必ずしも低いバイアスに対応しないことがわかった。
論文 参考訳(メタデータ) (2025-09-24T00:33:58Z) - Can VLMs Recall Factual Associations From Visual References? [30.821053378797007]
視覚言語モデル(VLM)のマルチモーダルグラウンドリングにおける系統的欠陥を同定する。
VLMは、実体のイメージ表現に頼らざるを得ず、現実の知識を思い出す能力を持っている。
このようなリンク障害は、モデル内部状態における異なるパターンの表現と相関していることを示す。
論文 参考訳(メタデータ) (2025-08-22T16:47:37Z) - Fooling the LVLM Judges: Visual Biases in LVLM-Based Evaluation [14.521056434373213]
大規模視覚言語モデル (LVLM) はテキスト画像のアライメントを判断するツールとして好まれている。
対人的視覚操作は、LVLM審査員が不当に膨らんだスコアを割り当てることを体系的に騙すことができるか?
敵対的な視覚操作は、LVLM審査員を体系的に騙して不当に膨らませたスコアを割り当てることができるか?
論文 参考訳(メタデータ) (2025-05-21T08:24:28Z) - Is Your Video Language Model a Reliable Judge? [9.434966074326056]
ビデオ言語モデル(VLM)は、様々なシナリオにおいてより多くのアプリケーションを得る。
堅牢でスケーラブルなパフォーマンス評価の必要性はますます重要になっています。
既存の手法はしばしば評価器として単一のVLMに依存している。
本研究は,裁判官のプールが信頼できないモデルと信頼できないモデルの両方を含む場合,そのようなアプローチの有効性について検討する。
論文 参考訳(メタデータ) (2025-03-07T23:17:59Z) - VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning [112.35483894933904]
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。
VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。
LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
論文 参考訳(メタデータ) (2024-12-03T05:04:49Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - MJ-Bench: Is Your Multimodal Reward Model Really a Good Judge for Text-to-Image Generation? [59.7772329962047]
MJ-Benchは、マルチモーダル・ジャッジを評価するために、包括的な選好データセットを組み込んだ新しいベンチマークである。
具体的には、より小型のCLIPベースのスコアリングモデル、オープンソースのVLM、オープンソースのVLMなど、様々なマルチモーダル・ジャッジを評価する。
実験の結果、オープンソースのVLMは一般的にフィードバックが良く、GPT-4oは他の審査員を平均上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-05T20:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。