論文の概要: Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions
- arxiv url: http://arxiv.org/abs/2308.11483v1
- Date: Tue, 22 Aug 2023 14:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 17:36:40.295866
- Title: Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions
- Title(参考訳): 大規模言語モデルにおける選択肢の順序に対する感性
- Authors: Pouya Pezeshkpour, Estevam Hruschka
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
- 参考スコア(独自算出の注目度): 5.187383020960245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in
various NLP tasks. However, previous works have shown these models are
sensitive towards prompt wording, and few-shot demonstrations and their order,
posing challenges to fair assessment of these models. As these models become
more powerful, it becomes imperative to understand and address these
limitations. In this paper, we focus on LLMs robustness on the task of
multiple-choice questions -- commonly adopted task to study reasoning and
fact-retrieving capability of LLMs. Investigating the sensitivity of LLMs
towards the order of options in multiple-choice questions, we demonstrate a
considerable performance gap of approximately 13% to 75% in LLMs on different
benchmarks, when answer options are reordered, even when using demonstrations
in a few-shot setting. Through a detailed analysis, we conjecture that this
sensitivity arises when LLMs are uncertain about the prediction between the
top-2/3 choices, and specific options placements may favor certain prediction
between those top choices depending on the question caused by positional bias.
We also identify patterns in top-2 choices that amplify or mitigate the model's
bias toward option placement. We found that for amplifying bias, the optimal
strategy involves positioning the top two choices as the first and last
options. Conversely, to mitigate bias, we recommend placing these choices among
the adjacent options. To validate our conjecture, we conduct various
experiments and adopt two approaches to calibrate LLMs' predictions, leading to
up to 8 percentage points improvement across different models and benchmarks.
- Abstract(参考訳): 大規模言語モデル(llm)は様々なnlpタスクにおいて顕著な能力を示している。
しかし、以前の研究では、これらのモデルが素早い言い回し、数発のデモとその順序に敏感であることを示し、これらのモデルの公正な評価に挑戦している。
これらのモデルがより強力になると、これらの制限を理解し、対処することが不可欠になる。
本稿では,LLMの推論と事実検索能力の研究に広く採用されている課題である,複数選択質問のタスクに対するLLMの堅牢性に着目した。
複数選択質問における選択肢の順序に対するLLMの感度を調べたところ,数ショット設定で実演する場合であっても,異なるベンチマーク上でのLLMの約13%から75%のパフォーマンス差が見られた。
詳細な分析を通じて,上位2/3選択間の予測についてllmが不確実である場合にこの感度が生じると推測し,特定の選択肢配置は位置バイアスによって生じる問題に応じて,上位選択間の特定の予測を好む可能性がある。
また、オプション配置に対するモデルのバイアスを増幅または緩和するトップ2の選択パターンも特定します。
バイアスを増幅するために、最適な戦略は、上位2つの選択肢を第一と最後の選択肢として位置づけることです。
逆に、バイアスを軽減するために、隣接する選択肢にこれらの選択肢を置くことを推奨する。
予測を検証するために,様々な実験を行い,llmsの予測を校正する方法を2つ導入し,各モデルとベンチマークで最大8ポイント改善した。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.34646723046073]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文 参考訳(メタデータ) (2024-10-18T07:52:22Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Grade Score: Quantifying LLM Performance in Option Selection [0.0]
グレードスコア」は、大規模言語モデル(LLM)の一貫性と公平性を評価するために設計された新しい計量である
グレードスコアは、順序バイアスを測定するエントロピーと、選択安定性を評価するモード周波数を組み合わせる。
本研究は,グレードスコアを最適化するために,プロンプトエンジニアリングやオプションサンプリング戦略などの手法を探求する。
論文 参考訳(メタデータ) (2024-06-17T19:29:39Z) - Deep Bayesian Active Learning for Preference Modeling in Large Language Models [84.817400962262]
本稿では,BAL-PM(Bayesian Active Learner for Preference Modeling)を提案する。
BAL-PMは2つの人気のある人間の嗜好データセットにおいて、好みラベルを33%から68%少なくし、以前のベイズ買収ポリシーを超えている。
我々の実験では、BAL-PMは2つの人気のある人選好データセットにおいて33%から68%の選好ラベルを必要としており、ベイズ買収ポリシーを上回ります。
論文 参考訳(メタデータ) (2024-06-14T13:32:43Z) - Unveiling Selection Biases: Exploring Order and Token Sensitivity in Large Language Models [24.300350113903768]
大規模言語モデル(LLM)における「選択バイアス」について検討する。
複数のモデルやタスクにまたがる広範な経験的分析を通じて、これらのバイアスの影響を定量化する。
モデル性能を向上させるための緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-05T07:16:51Z) - Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors [11.470005425117371]
大規模言語モデル(LLM)研究における重要な研究領域として,MCQ(Multiple-Choice Questions)があげられる。
我々は、ポイントワイド・インテリジェント・フィードバック(PIF)と呼ばれるMCQのための効率的なスーパーバイザード・ファインチューニングアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-06-03T06:20:12Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。