論文の概要: Fooling the LVLM Judges: Visual Biases in LVLM-Based Evaluation
- arxiv url: http://arxiv.org/abs/2505.15249v1
- Date: Wed, 21 May 2025 08:24:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.303751
- Title: Fooling the LVLM Judges: Visual Biases in LVLM-Based Evaluation
- Title(参考訳): LVLM審査員の食事:LVLMに基づく評価における視覚的バイアス
- Authors: Yerin Hwang, Dongryeol Lee, Kyungmin Min, Taegwan Kang, Yong-il Kim, Kyomin Jung,
- Abstract要約: 大規模視覚言語モデル (LVLM) はテキスト画像のアライメントを判断するツールとして好まれている。
対人的視覚操作は、LVLM審査員が不当に膨らんだスコアを割り当てることを体系的に騙すことができるか?
敵対的な視覚操作は、LVLM審査員を体系的に騙して不当に膨らませたスコアを割り当てることができるか?
- 参考スコア(独自算出の注目度): 14.521056434373213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large vision-language models (LVLMs) have emerged as the preferred tools for judging text-image alignment, yet their robustness along the visual modality remains underexplored. This work is the first study to address a key research question: Can adversarial visual manipulations systematically fool LVLM judges into assigning unfairly inflated scores? We define potential image induced biases within the context of T2I evaluation and examine how these biases affect the evaluations of LVLM judges. Moreover, we introduce a novel, fine-grained, multi-domain meta-evaluation benchmark named FRAME, which is deliberately constructed to exhibit diverse score distributions. By introducing the defined biases into the benchmark, we reveal that all tested LVLM judges exhibit vulnerability across all domains, consistently inflating scores for manipulated images. Further analysis reveals that combining multiple biases amplifies their effects, and pairwise evaluations are similarly susceptible. Moreover, we observe that visual biases persist under prompt-based mitigation strategies, highlighting the vulnerability of current LVLM evaluation systems and underscoring the urgent need for more robust LVLM judges.
- Abstract(参考訳): 近年,大規模な視覚言語モデル (LVLM) がテキスト画像のアライメントを判断する上で好まれるツールとして登場している。
敵対的な視覚操作は、LVLM審査員を体系的に騙して不当に膨らませたスコアを割り当てることができるか?
我々は、T2I評価の文脈において、潜在的な画像誘発バイアスを定義し、これらのバイアスがLVLM審査員の評価にどのように影響するかを検討する。
さらに,多様なスコア分布を示すために意図的に構築されたFRAMEという,細粒度なマルチドメインメタ評価ベンチマークを導入する。
定義されたバイアスをベンチマークに導入することにより、テスト済みのLVLM審査員がすべての領域に脆弱性を示し、操作された画像のスコアを一貫して膨らませることを明らかにした。
さらに分析した結果、複数のバイアスを組み合わせることで効果が増幅され、ペアによる評価も同様に影響を受けやすいことが判明した。
さらに,従来のLVLM評価システムの脆弱性を強調し,より堅牢なLVLM審査員の必要性を強調し,即時緩和戦略の下で視覚バイアスが持続することを観察した。
関連論文リスト
- Judging the Judges: Can Large Vision-Language Models Fairly Evaluate Chart Comprehension and Reasoning? [26.909604648952616]
13個のオープンソースのLVLMを多彩なチャート理解および推論タスクの判断として評価した。
我々は、事実の正しさ、情報性、関連性といった基準を網羅した、ペアワイズかつポイントワイズな評価タスクを設計する。
我々は、研究開発と商業利用の両方に適した費用対効果のLVLMに焦点を当てる。
論文 参考訳(メタデータ) (2025-05-13T11:50:08Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [19.461541208547136]
本稿では,文脈内サンプル数の増加が評価結果の一貫性と品質に及ぼす影響について検討する。
GPT-4oのような先進LLMは、ゼロショットや少数ショットのレギュレーションよりも多ショットのレギュレーションにおいて優れた性能を示すことを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-17T15:11:58Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Is LLM-as-a-Judge Robust? Investigating Universal Adversarial Attacks on Zero-shot LLM Assessment [8.948475969696075]
LLM(Large Language Models)は、筆記試験やベンチマークシステムなどの実世界の状況で使用される強力なゼロショットアセスメントである。
本研究では,LLMを判断し,膨らませたスコアを判断するために,短い普遍的対数句を欺くことができることを示す。
判定-LLMは,絶対スコアリングに使用する場合,これらの攻撃に対して有意に感受性が高いことが判明した。
論文 参考訳(メタデータ) (2024-02-21T18:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。