論文の概要: Hearing the Order: Investigating Selection Bias in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2510.00628v1
- Date: Wed, 01 Oct 2025 08:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.455873
- Title: Hearing the Order: Investigating Selection Bias in Large Audio-Language Models
- Title(参考訳): 命令の聴取:大規模音声言語モデルにおける選択バイアスの調査
- Authors: Yu-Xiang Lin, Chen-An Li, Sheng-Lun Wei, Po-Chun Chen, Hsin-Hsi Chen, Hung-yi Lee,
- Abstract要約: 大規模オーディオ言語モデル(LALM)は、注文された選択肢に対する推論を含むタスクでしばしば使用される。
本稿では,この問題をLALMで同定し,解析する。
- 参考スコア(独自算出の注目度): 51.69003519291754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large audio-language models (LALMs) are often used in tasks that involve reasoning over ordered options. An open question is whether their predictions are influenced by the order of answer choices, which would indicate a form of selection bias and undermine their reliability. In this paper, we identify and analyze this problem in LALMs. We demonstrate that no model is immune to this bias through extensive experiments on six LALMs across three widely used benchmarks and their spoken counterparts. Shuffling the order of answer options can cause performance fluctuations of up to 24% and even change model rankings, raising concerns about the reliability of current evaluation practices. We also study permutation-based strategies and show that they can mitigate bias in most cases. Our work represents the first systematic investigation of this issue in LALMs, and we hope it raises awareness and motivates further research in this direction.
- Abstract(参考訳): 大規模オーディオ言語モデル(LALM)は、注文された選択肢に対する推論を含むタスクでしばしば使用される。
オープンな疑問は、その予測が、選択バイアスの形を示し、その信頼性を損なうような、答えの選択の順序に影響されているかどうかである。
本稿では,この問題をLALMで同定し,解析する。
広範に使用されている3つのベンチマークおよびそれらが話される6つのLALMに関する広範な実験を通じて、このバイアスに無害なモデルが存在しないことを実証する。
回答オプションの順序をシャッフルすると、パフォーマンスのゆらぎが最大24%になり、モデルランキングも変更され、現在の評価プラクティスの信頼性に対する懸念が高まる。
また、置換に基づく戦略も研究し、ほとんどの場合バイアスを軽減することができることを示す。
我々の研究は、LALMにおけるこの問題に関する最初の体系的な調査であり、意識を高め、この方向へのさらなる研究を動機付けることを願っている。
関連論文リスト
- Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.252597615544317]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文 参考訳(メタデータ) (2024-10-18T07:52:22Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Evaluating Nuanced Bias in Large Language Model Free Response Answers [8.775925011558995]
複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T19:58:13Z) - Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル (LLM) は現実世界での利用が増えているが、その戦略的意思決定能力はほとんど探索されていない。
本研究は,Stag Hunt と Prisoner Dilemma のカノニカルゲーム理論2人プレイヤ非ゼロサムゲームにおける LLM の性能とメリットについて検討する。
GPT-3.5, GPT-4-Turbo, GPT-4o, Llama-3-8Bの構造化評価は, これらのゲームにおいて決定を行う場合, 以下の系統的バイアスの少なくとも1つの影響を受けていることを示す。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。