論文の概要: Large Language Models Are Not Robust Multiple Choice Selectors
- arxiv url: http://arxiv.org/abs/2309.03882v4
- Date: Thu, 22 Feb 2024 01:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:39:30.686414
- Title: Large Language Models Are Not Robust Multiple Choice Selectors
- Title(参考訳): 大規模言語モデルは複数の選択子にロバストでない
- Authors: Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
- Abstract要約: 複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
- 参考スコア(独自算出の注目度): 117.72712117510953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple choice questions (MCQs) serve as a common yet important task format
in the evaluation of large language models (LLMs). This work shows that modern
LLMs are vulnerable to option position changes in MCQs due to their inherent
"selection bias", namely, they prefer to select specific option IDs as answers
(like "Option A"). Through extensive empirical analyses with 20 LLMs on three
benchmarks, we pinpoint that this behavioral bias primarily stems from LLMs'
token bias, where the model a priori assigns more probabilistic mass to
specific option ID tokens (e.g., A/B/C/D) when predicting answers from the
option IDs. To mitigate selection bias, we propose a label-free, inference-time
debiasing method, called PriDe, which separates the model's prior bias for
option IDs from the overall prediction distribution. PriDe first estimates the
prior by permutating option contents on a small number of test samples, and
then applies the estimated prior to debias the remaining samples. We
demonstrate that it achieves interpretable and transferable debiasing with high
computational efficiency. We hope this work can draw broader research attention
to the bias and robustness of modern LLMs.
- Abstract(参考訳): 複数の選択質問(MCQ)は、大きな言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLCMがMCQのオプション位置変化に対して脆弱であることを示し、その固有の「選択バイアス」、すなわち、特定のオプションIDを答えとして選択することを好む("Option A" のような)。
3つのベンチマークで20個の LLM を用いた広範な実験分析を通して、この行動バイアスは LLM のトークンバイアスに起因していることを指摘し、このモデルでは、オプション ID からの回答を予測する際に、a が特定のオプション ID トークン(例えば A/B/C/D)により確率的な質量を割り当てる。
選択バイアスを軽減するために,PriDeと呼ばれるラベルのない推論時間デバイアス手法を提案し,オプションIDに対するモデルの事前バイアスを全体予測分布から分離する。
PriDeはまず、少数のテストサンプルにオプション内容を置換して事前を推定し、その後、残りのサンプルをデバイアスする前に推定を適用します。
高い計算効率で解釈可能かつ転送可能なデバイアスを実現することを実証する。
我々は、この研究が現代のllmのバイアスと堅牢性に幅広い研究の注意を向けることを望んでいる。
関連論文リスト
- Evaluating Nuanced Bias in Large Language Model Free Response Answers [8.775925011558995]
複数の選択テストでは識別できない自由テキストにおける数種類のニュアンスバイアスを同定する。
本稿では, 偏見を検知する半自動パイプラインについて, 解答を非偏見として自動的に分類する手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T19:58:13Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Open-LLM-Leaderboard: From Multi-choice to Open-style Questions for LLMs Evaluation, Benchmark, and Arena [23.264049073539663]
大規模言語モデル(LLM)を評価するために、MCQ(Multiple-choice Question)が頻繁に使用される。
LLMは、A/B/C/Dのような特定の解選択IDを本質的に好んでいるかもしれない。
本研究は,これらの課題に対処し,完全にオープンな質問を通じて新たなLCM評価ベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-06-11T17:59:47Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Pseudo Label Selection is a Decision Problem [0.0]
Pseudo-Labelingは、半教師あり学習におけるシンプルで効果的なアプローチである。
擬似ラベル付きデータの選定を導く基準が必要である。
過信だが誤った予測を持つインスタンスを選択することで、オーバーフィッティングを最終モデルに伝達することができる。
論文 参考訳(メタデータ) (2023-09-25T07:48:02Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。