論文の概要: On Large Language Models' Selection Bias in Multi-Choice Questions
- arxiv url: http://arxiv.org/abs/2309.03882v2
- Date: Fri, 8 Sep 2023 15:54:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 10:57:18.009251
- Title: On Large Language Models' Selection Bias in Multi-Choice Questions
- Title(参考訳): マルチチョイス問題における大規模言語モデルの選択バイアスについて
- Authors: Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
- Abstract要約: 大規模言語モデル(LLM)の研究において、MCQ(Multi-choice Question)は一般的だが重要なタスク形式として機能する。
我々の研究は、LCMがMCQに固有の「選択バイアス」を示すことを示している。
選択バイアスを軽減するためにPriDeと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 117.72712117510953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-choice questions (MCQs) serve as a common yet important task format in
the research of large language models (LLMs). Our work shows that LLMs exhibit
an inherent "selection bias" in MCQs, which refers to LLMs' preferences to
select options located at specific positions (like "Option C"). This bias is
prevalent across various LLMs, making their performance vulnerable to option
position changes in MCQs. We identify that one primary cause resulting in
selection bias is option numbering, i.e., the ID symbols A/B/C/D associated
with the options. To mitigate selection bias, we propose a new method called
PriDe. PriDe first decomposes the observed model prediction distribution into
an intrinsic prediction over option contents and a prior distribution over
option IDs. It then estimates the prior by permutating option contents on a
small number of test samples, which is used to debias the subsequent test
samples. We demonstrate that, as a label-free, inference-time method, PriDe
achieves a more effective and computation-efficient debiasing than strong
baselines. We further show that the priors estimated by PriDe generalize well
across different domains, highlighting its practical potential in broader
scenarios.
- Abstract(参考訳): マルチチョイス質問(MCQ)は、大規模言語モデル(LLM)の研究において、一般的だが重要なタスク形式として機能する。
我々の研究は、LCMはMCQに固有の「選択バイアス」を示しており、LCMが特定の位置(例えば「オプティオンC」)にある選択肢を選択することを好んでいることを示している。
このバイアスは様々なLCMにまたがっており、MCQのオプション位置変化に対してパフォーマンスが脆弱である。
選択バイアスをもたらす主な原因の1つはオプション番号、すなわちオプションに関連するIDシンボルA/B/C/Dである。
選択バイアスを軽減するため,プライドと呼ばれる新しい手法を提案する。
PriDeはまず、観測されたモデル予測分布を、オプションコンテンツ上の本質的な予測とオプションID上の事前分布に分解する。
その後、少数のテストサンプルでオプション内容の置換によって事前を推定し、その後のテストサンプルを嫌悪するために使用される。
ラベルのない推論時間法として、PriDeは強力なベースラインよりも効率的で計算効率の良いデバイアスを実現する。
さらに、PriDeが見積もった事前予測が、異なるドメインにまたがってうまく一般化し、より広いシナリオにおけるその実践的可能性を強調します。
関連論文リスト
- Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.34646723046073]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文 参考訳(メタデータ) (2024-10-18T07:52:22Z) - Mitigating Selection Bias with Node Pruning and Auxiliary Options [11.835002896308545]
大規模言語モデル (LLM) は、複数の質問に応答するときに、特定の選択オプションに対して不当な好みを示すことが多い。
以前のソリューションでは、モデルの入力と/または出力を調整するためにデバイアス法を使用していた。
対照的に、我々の研究は選択バイアスのモデルの内部表現を調査している。
論文 参考訳(メタデータ) (2024-09-27T15:53:54Z) - Differentiating Choices via Commonality for Multiple-Choice Question Answering [54.04315943420376]
複数選択の質問応答は、正しい答えを選択するための貴重な手がかりを提供することができる。
既存のモデルでは、それぞれの選択を別々にランク付けし、他の選択によって提供されるコンテキストを見渡すことが多い。
本稿では,DCQAと呼ばれる共通性を識別・排除することで,選択を識別する新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-08-21T12:05:21Z) - Evaluating Nuanced Bias in Large Language Model Free Response Answers [8.775925011558995]
複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T19:58:13Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Pseudo Label Selection is a Decision Problem [0.0]
Pseudo-Labelingは、半教師あり学習におけるシンプルで効果的なアプローチである。
擬似ラベル付きデータの選定を導く基準が必要である。
過信だが誤った予測を持つインスタンスを選択することで、オーバーフィッティングを最終モデルに伝達することができる。
論文 参考訳(メタデータ) (2023-09-25T07:48:02Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。