論文の概要: Unexplored flaws in multiple-choice VQA evaluations
- arxiv url: http://arxiv.org/abs/2511.22341v1
- Date: Thu, 27 Nov 2025 11:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.534755
- Title: Unexplored flaws in multiple-choice VQA evaluations
- Title(参考訳): 多重選択VQA評価における未探索欠陥
- Authors: Fabio Rosenthal, Sebastian Schmidt, Thorsten Graf, Thorsten Bagodonat, Stephan Günnemann, Leo Schwinn,
- Abstract要約: MLLM(Multimodal Large Language Models)は、画像テキスト入力の処理能力を示す。
この能力を評価する一般的な方法は、VQA(Multi-choice Visual Question Answering)である。
我々は、現在のMLLM評価の信頼性に疑問を呈するプロンプトフォーマッティングにおいて、追加で未探索のバイアスを強調した。
- 参考スコア(独自算出の注目度): 42.62741466222976
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate strong capabilities in handling image-text inputs. A common way to assess this ability is through multiple-choice Visual Question Answering (VQA). Earlier works have already revealed that these benchmarks are sensitive to answer choice order, a limitation that can be mitigated through careful design. Yet, we highlight additional, unexplored biases in prompt formatting that question the reliability of current MLLM evaluations. Specifically, we identify three key variation factors in prompt formatting and analyze their impact through a large-scale study involving $\mathbf{\text{seven}}$ MLLMs and $\mathbf{\text{five}}$ VQA datasets, spanning $\mathbf{48}$ distinct $\mathbf{\text{prompt format variations}}$. Our findings reveal that multiple-choice VQA is highly sensitive to minor prompt format changes, even when these changes are semantically neutral. We further demonstrate that these biases persist independently of known order biases or the MLLM's confidence in the correct answer. Finally, we demonstrate that existing bias mitigation strategies fail to address these newly identified biases.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像テキスト入力の処理能力を示す。
この能力を評価する一般的な方法は、VQA(Multi-choice Visual Question Answering)である。
以前の研究によると、これらのベンチマークは選択順序の答えに敏感であり、慎重に設計することで緩和できるという。
しかし、我々は、現在のMLLM評価の信頼性に疑問を呈するプロンプトフォーマッティングにおいて、追加で未探索のバイアスを強調した。
具体的には、$\mathbf{\text{seven}}$ MLLMsと$\mathbf{\text{five}}$ VQAデータセットを含む大規模な研究を通じて、それらの影響をプロンプトフォーマッティングし分析する3つの重要な変数を特定します。
以上の結果より,複数選択VQAは,意味的に中立な場合であっても,マイナーなプロンプトフォーマットの変更に対して非常に敏感であることが明らかとなった。
さらに、これらのバイアスは、既知の順序バイアスや正しい回答に対するMLLMの信頼とは独立して持続することを示した。
最後に、既存のバイアス緩和戦略が、これらの新たに特定されたバイアスに対処できないことを示す。
関連論文リスト
- Benchmarking and Mitigating MCQA Selection Bias of Large Vision-Language Models [2.393011821499345]
大規模視覚言語モデル(LVLM)における選択バイアスの存在と性質について検討する。
一般および文脈的プロンプトからアンサンブルバイアスベクトルを推定する推論時間ロジットレベルのデバイアス法を提案する。
本手法はリトレーニングなしでバイアスを軽減し,冷凍LVLMと互換性がある。
論文 参考訳(メタデータ) (2025-09-20T20:45:47Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)の評価には,MCQA(Multiple-Choice Question Answering)が広く用いられている。
報告されたLCMの性能には,複数の要因が大きな影響を及ぼす可能性が示唆された。
既存の回答抽出手法が人間の判断と一致しているかどうかを解析する。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。
後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文 参考訳(メタデータ) (2024-07-21T00:10:23Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Forward-Backward Reasoning in Large Language Models for Mathematical Verification [65.9495774606273]
自己整合性(Self-Consistency)は、さまざまな推論チェーンの回答をサンプリングし、多数決によって最終回答を選択する。
候補解の検証に後方推論を導入する。
検証のための FOrward と BAckward Reasoning は最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-15T13:19:59Z) - Increasing Probability Mass on Answer Choices Does Not Always Improve
Accuracy [60.18632773935895]
同一の意味を持つ複数の曲面に確率質量を分散させることは、モデルの真の性能の過小評価を引き起こすと考えられている。
我々はSFCの数学的形式論を提案し、初めてその影響を定量化し、束縛することができる。
提案手法は,各回答選択の確率質量をaで増加させるという単純な方法であり,プロンプトに含め,bに含めた確率質量をbで増加させる手法である。
論文 参考訳(メタデータ) (2023-05-24T00:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。