論文の概要: Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models
- arxiv url: http://arxiv.org/abs/2410.14248v1
- Date: Fri, 18 Oct 2024 07:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:40.562218
- Title: Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models
- Title(参考訳): Blind Guessing: ビデオ言語モデルによる複数質問応答における選択バイアスの校正
- Authors: Olga Loginova, Oleksandr Bezrukov, Alexey Kravets,
- Abstract要約: ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
- 参考スコア(独自算出の注目度): 16.34646723046073
- License:
- Abstract: Evaluating Video Language Models (VLMs) is a challenging task. Due to its transparency, Multiple-Choice Question Answering (MCQA) is widely used to measure the performance of these models through accuracy. However, existing MCQA benchmarks fail to capture the full reasoning capabilities of VLMs due to selection bias, when models disproportionately favor certain answer options based on positional patterns observed during training. In this work, we conduct a comprehensive empirical analysis of several VLM architectures across major datasets designed to assess complex video-focused reasoning. We identify where the bias is most pronounced and demonstrate to what extent model responses reflect genuine understanding of video content and related questions, as opposed to reliance on arbitrary patterns or superficial cues, such as answer position. By decomposing the MCQA task and adapting fairness bias metrics to VLMs, we introduce a post-processing calibration technique BOLD to balance this bias. Our results show that reducing selection bias improves not only debiasing metrics but also overall model performance, including Accuracy and F1 Mean score. Our method, by suppressing "blind guessing", offers a more cost- and time-effective approach to mitigating selection bias compared to existing techniques. This study represents the first focused investigation of selection bias in video-to-text LLM-powered models.
- Abstract(参考訳): ビデオ言語モデル(VLM)を評価することは難しい課題です。
その透明性のため、MCQA(Multiple-Choice Question Answering)はこれらのモデルの性能を精度で測定するために広く使われている。
しかし、既存のMCQAベンチマークでは、選択バイアスによるVLMの完全な推論能力は得られていない。
本研究では、複雑なビデオ中心の推論を評価するために設計された主要なデータセットにまたがる複数のVLMアーキテクチャの包括的実証分析を行う。
偏見が最も顕著な場所を特定し,回答位置などの任意のパターンや表面的手がかりに依存するのとは対照的に,モデル応答がビデオの内容や関連する質問の真の理解をどの程度反映しているかを示す。
MCQAタスクを分解し、公平バイアスメトリクスをVLMに適用することにより、このバイアスのバランスをとるために後処理キャリブレーション手法BOLDを導入する。
その結果,選択バイアスの低減は,指標の偏りだけでなく,精度やF1平均スコアなど全体のモデル性能も向上することがわかった。
提案手法は,従来の手法に比べて,選択バイアスを軽減するためのコスト効率と時間効率のよいアプローチを提供する。
本研究は,ビデオ-テキスト LLM を用いたモデルにおける選択バイアスについて,初めて焦点を絞った研究である。
関連論文リスト
- Mitigating Selection Bias with Node Pruning and Auxiliary Options [11.835002896308545]
大規模言語モデル (LLM) は、複数の質問に応答するときに、特定の選択オプションに対して不当な好みを示すことが多い。
以前のソリューションでは、モデルの入力と/または出力を調整するためにデバイアス法を使用していた。
対照的に、我々の研究は選択バイアスのモデルの内部表現を調査している。
論文 参考訳(メタデータ) (2024-09-27T15:53:54Z) - Evaluating Nuanced Bias in Large Language Model Free Response Answers [8.775925011558995]
複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T19:58:13Z) - Selectively Answering Visual Questions [14.867972139262907]
大規模マルチモーダルモデル(LMM)は、前例のない精度で視覚タスクを実行する能力を持って登場した。
テキスト内学習LMMを用いた視覚質問応答(VQA)のためのキャリブレーション手法とメトリクスの詳細な分析を行う。
テキストのみのテキスト学習よりも,視覚的に接地されたモデルの可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-03T04:28:10Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。