論文の概要: Mitigating Easy Option Bias in Multiple-Choice Question Answering
- arxiv url: http://arxiv.org/abs/2508.13428v1
- Date: Tue, 19 Aug 2025 01:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.753516
- Title: Mitigating Easy Option Bias in Multiple-Choice Question Answering
- Title(参考訳): 複数質問応答における選択バイアスの緩和
- Authors: Hao Zhang, Chen Li, Basura Fernando,
- Abstract要約: 我々は,VQA(Visual Question Answering)ベンチマークにおいて,EOB(Easy-Options Bias)問題を観察した。
このバイアスにより、視覚言語モデル(VLM)は、視覚(V)とオプション(O)のみを入力として、正しい答えを選択することができる。
GroundAttackは、正解として視覚的に妥当なハードネガティブなオプションを自動的に生成するツールキットである。
- 参考スコア(独自算出の注目度): 19.102900548627638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this early study, we observe an Easy-Options Bias (EOB) issue in some multiple-choice Visual Question Answering (VQA) benchmarks such as MMStar, RealWorldQA, SEED-Bench, Next-QA, STAR benchmark and Video-MME. This bias allows vision-language models (VLMs) to select the correct answer using only the vision (V) and options (O) as inputs, without the need for the question (Q). Through grounding experiments, we attribute the bias to an imbalance in visual relevance: the correct answer typically aligns more closely with the visual contents than the negative options in feature space, creating a shortcut for VLMs to infer the answer via simply vision-option similarity matching. To fix this, we introduce GroundAttack, a toolkit that automatically generates hard negative options as visually plausible as the correct answer. We apply it to the NExT-QA and MMStar datasets, creating new EOB-free annotations. On these EOB-free annotations, current VLMs approach to random accuracies under (V+O) settings, and drop to non-saturated accuracies under (V+Q+O) settings, providing a more realistic evaluation of VLMs' QA ability. Codes and new annotations will be released soon.
- Abstract(参考訳): 本稿では,MMStar,RealWorldQA,SEED-Bench,Next-QA,STARベンチマーク,Video-MMEなどの複数選択型視覚質問応答(VQA)ベンチマークにおいて,EOB(Easy-Options Bias)問題について考察する。
このバイアスにより、視覚言語モデル(VLM)は、質問(Q)を必要とせずに、視覚(V)とオプション(O)のみを入力として正しい答えを選択することができる。
正解は典型的には特徴空間の負の選択肢よりも視覚内容と密接に一致し、VLMのショートカットを作成し、視覚-選択類似性マッチングによって解を推測する。
この問題を解決するために,GroundAttackを導入します。これは,正解として視覚的に妥当なハードネガティブオプションを自動的に生成するツールキットです。
NExT-QAおよびMMStarデータセットに適用し、新しいEOBフリーアノテーションを作成する。
これらのEOBフリーアノテーションでは、現在のVLMは(V+O)設定下でランダムな精度にアプローチし、(V+Q+O)設定下では不飽和な精度に低下し、VLMのQA能力をよりリアルに評価する。
コードと新しいアノテーションがまもなくリリースされる。
関連論文リスト
- Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation [69.81654421834989]
オープンエンドの質問を自動的にマルチ選択フォーマットに変換するエージェントフレームワークであるAutoを紹介します。
我々の実験は、オートが人間と同じような、あるいは低い精度で、複数選択の質問を訂正し、挑戦できることを実証した。
我々はVMCBench上で33の最先端ビジョン言語モデル(VLM)を包括的に評価し、スケーラブルで一貫した再現可能なVLM評価のための新しい標準を設定した。
論文 参考訳(メタデータ) (2025-01-06T18:57:31Z) - Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.252597615544317]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文 参考訳(メタデータ) (2024-10-18T07:52:22Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Multimodal Rationales for Explainable Visual Question Answering [12.893224628061516]
VQA(Visual Question Answering)は、画像の内容に関する質問に対する回答を予測するための課題である。
MRVQAと呼ばれる新しいモデルを提案し、予測された回答をサポートするために視覚的およびテキスト的根拠を提供する。
MRVQAは、新たな合理的な生成を通じて、新しい最先端の結果を達成し、モデルの信頼性を高める。
論文 参考訳(メタデータ) (2024-02-06T11:07:05Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。