論文の概要: On Large Language Models' Selection Bias in Multi-Choice Questions
- arxiv url: http://arxiv.org/abs/2309.03882v1
- Date: Thu, 7 Sep 2023 17:44:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:57:14.105833
- Title: On Large Language Models' Selection Bias in Multi-Choice Questions
- Title(参考訳): マルチチョイス問題における大規模言語モデルの選択バイアスについて
- Authors: Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, Minlie Huang
- Abstract要約: 大規模言語モデル(LLM)の研究において、MCQ(Multi-choice Question)は一般的だが重要なタスク形式として機能する。
我々の研究は、LCMがMCQに固有の「選択バイアス」を示すことを示している。
選択バイアスを軽減するためにPriDeと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 117.72712117510953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-choice questions (MCQs) serve as a common yet important task format in
the research of large language models (LLMs). Our work shows that LLMs exhibit
an inherent "selection bias" in MCQs, which refers to LLMs' preferences to
select options located at specific positions (like "Option C"). This bias is
prevalent across various LLMs, making their performance vulnerable to option
position changes in MCQs. We identify that one primary cause resulting in
selection bias is option numbering, i.e., the ID symbols A/B/C/D associated
with the options. To mitigate selection bias, we propose a new method called
PriDe. PriDe first decomposes the observed model prediction distribution into
an intrinsic prediction over option contents and a prior distribution over
option IDs. It then estimates the prior by permutating option contents on a
small number of test samples, which is used to debias the subsequent test
samples. We demonstrate that, as a label-free, inference-time method, PriDe
achieves a more effective and computation-efficient debiasing than strong
baselines. We further show that the priors estimated by PriDe generalize well
across different domains, highlighting its practical potential in broader
scenarios.
- Abstract(参考訳): マルチチョイス質問(MCQ)は、大規模言語モデル(LLM)の研究において、一般的だが重要なタスク形式として機能する。
我々の研究は、LCMはMCQに固有の「選択バイアス」を示しており、LCMが特定の位置(例えば「オプティオンC」)にある選択肢を選択することを好んでいることを示している。
このバイアスは様々なLCMにまたがっており、MCQのオプション位置変化に対してパフォーマンスが脆弱である。
選択バイアスをもたらす主な原因の1つはオプション番号、すなわちオプションに関連するIDシンボルA/B/C/Dである。
選択バイアスを軽減するため,プライドと呼ばれる新しい手法を提案する。
PriDeはまず、観測されたモデル予測分布を、オプションコンテンツ上の本質的な予測とオプションID上の事前分布に分解する。
その後、少数のテストサンプルでオプション内容の置換によって事前を推定し、その後のテストサンプルを嫌悪するために使用される。
ラベルのない推論時間法として、PriDeは強力なベースラインよりも効率的で計算効率の良いデバイアスを実現する。
さらに、PriDeが見積もった事前予測が、異なるドメインにまたがってうまく一般化し、より広いシナリオにおけるその実践的可能性を強調します。
関連論文リスト
- Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - Finding Optimal Diverse Feature Sets with Alternative Feature Selection [0.0]
代替機能の選択を導入し、最適化問題として定式化する。
特に,制約によって代替品を定義し,利用者が代替品の数や相違を制御できるようにする。
30の分類データセットを用いて、代替特徴の選択を評価する。
論文 参考訳(メタデータ) (2023-07-21T14:23:41Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement
Learning [77.34726150561087]
In-Context Learning (RetICL) のための検索式を提案する。
我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプルレトリバーモデルを設計し、近似ポリシー最適化を用いてそれを訓練する。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - MQAG: Multiple-choice Question Answering and Generation for Assessing
Information Consistency in Summarization [55.60306377044225]
最先端の要約システムは高度に流動的な要約を生成することができる。
しかし、これらの要約には、情報源に存在しない事実上の矛盾や情報が含まれている可能性がある。
本稿では,ソース情報と要約情報を直接比較する,標準的な情報理論に基づく代替手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T23:08:25Z) - Selection by Prediction with Conformal p-values [7.917044695538599]
本研究では,未観測結果がユーザ指定値を超える候補を選択するためのスクリーニング手順について検討する。
本研究では,任意の予測モデルをラップして候補のサブセットを生成する手法を開発した。
論文 参考訳(メタデータ) (2022-10-04T06:34:49Z) - Unbiased Math Word Problems Benchmark for Mitigating Solving Bias [72.8677805114825]
現在の問題解決者は、バイアス付きデータセットと不適切なトレーニング戦略によるデータバイアスと学習バイアスからなるバイアスを解決している。
実験により,MWP の解法は,すべての MWP の問題を多種多様な質問をカバーしないバイアス付きトレーニングデータセットにより容易にバイアスを受けられることを確認した。
MWPは複数の等価方程式によって自然に解けるが、現在のデータセットは1つの等価方程式のみを基底真理とする。
論文 参考訳(メタデータ) (2022-05-17T06:07:04Z) - Black-box Selective Inference via Bootstrapping [5.960626580825523]
条件選択推論は選択イベントの正確な特徴を必要とするが、ラッソのようないくつかの例を除いてしばしば利用できない。
この研究は、選択イベントを推定するための一般的なアプローチを導入し、選択イベントに条件付けされた実行可能な推論を容易にすることで、この問題に対処する。
論文 参考訳(メタデータ) (2022-03-28T05:18:21Z) - True Few-Shot Learning with Language Models [78.42578316883271]
ホールドアウト例が利用できない場合, LMの少数ショット能力を評価する。
以上の結果から,先行研究はLMの真少ショット能力を大幅に過大評価していたことが示唆された。
論文 参考訳(メタデータ) (2021-05-24T17:55:51Z) - Online Active Model Selection for Pre-trained Classifiers [72.84853880948894]
我々は,任意のラウンドにおいて高い確率で最良のモデルをラベル付けし,出力する情報的サンプルを積極的に選択するオンライン選択的サンプリング手法を設計する。
我々のアルゴリズムは、敵とストリームの両方のオンライン予測タスクに利用できる。
論文 参考訳(メタデータ) (2020-10-19T19:53:15Z) - Lookahead and Hybrid Sample Allocation Procedures for Multiple Attribute
Selection Decisions [0.9137554315375922]
本稿では、各測定値が1つの属性の1つのサンプルを1つの代替として生成する設定について考察する。
収集するサンプルが一定数与えられた場合、決定者は、どのサンプルを取得するかを決定し、測定を行い、属性の規模に関する事前の信念を更新し、代替案を選択する必要がある。
論文 参考訳(メタデータ) (2020-07-31T15:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。