論文の概要: Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions
- arxiv url: http://arxiv.org/abs/2405.03205v1
- Date: Mon, 6 May 2024 07:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:35:25.581132
- Title: Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions
- Title(参考訳): アンコール回答:GPT-2の多項目質問における位置バイアスの強調
- Authors: Ruizhe Li, Yanjun Gao,
- Abstract要約: GPT-2モデルは、Multiple-choice Question (MCQ)において、常に第一選択の「A」を好んでいる。
このバイアスはGPT-2の意思決定プロセスの完全性に挑戦する。
このバイアスの原因となる内部モジュールを同定するために、機械論的解釈可能性アプローチを用いる。
- 参考スコア(独自算出の注目度): 4.203455342537068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as the GPT-4 and LLaMA families, have demonstrated considerable success across diverse tasks, including multiple-choice questions (MCQs). However, these models exhibit a positional bias, particularly an even worse anchored bias in the GPT-2 family, where they consistently favour the first choice 'A' in MCQs during inference. This anchored bias challenges the integrity of GPT-2's decision-making process, as it skews performance based on the position rather than the content of the choices in MCQs. In this study, we utilise the mechanistic interpretability approach to identify the internal modules within GPT-2 models responsible for this bias. We focus on the Multi-Layer Perceptron (MLP) layers and attention heads, using the "logit lens" method to trace and modify the specific value vectors that contribute to the bias. By updating these vectors within MLP and recalibrating attention patterns to neutralise the preference for the first choice 'A', we effectively mitigate the anchored bias. Our interventions not only correct the bias but also improve the overall MCQ prediction accuracy for the GPT-2 family across various datasets. This work represents the first comprehensive mechanistic analysis of anchored bias in MCQs within the GPT-2 models, introducing targeted, minimal-intervention strategies that significantly enhance GPT2 model robustness and accuracy in MCQs. Our code is available at https://github.com/ruizheliUOA/Anchored_Bias_GPT2.
- Abstract(参考訳): GPT-4やLLaMAファミリーのような大規模言語モデル(LLM)は、マルチチョイス質問(MCQ)を含む様々なタスクでかなりの成功を収めている。
しかしながら、これらのモデルは位置バイアスを示し、特にGPT-2ファミリーではより悪いアンカーバイアスを示し、推論中にMCQで最初に選択する「A」を常に好んでいる。
このバイアスは、GCT-2の意思決定プロセスの完全性に挑戦し、MCQにおける選択の内容ではなく、その位置に基づいて性能を損なう。
本研究では,このバイアスの原因となるGPT-2モデルの内部モジュールを同定するために,機械的解釈可能性アプローチを利用する。
本稿では,マルチ層パーセプトロン(MLP)層とアテンションヘッドに着目し,そのバイアスに寄与する特定の値ベクトルを"logit Lens"法を用いて追跡・修正する。
これらのベクトルをMLP内で更新し、注意パターンを調整して第1選択「A」の好みを中和することにより、アンカーバイアスを効果的に軽減する。
我々の介入はバイアスを補正するだけでなく、様々なデータセットにわたるGPT-2ファミリーの全体的なMCQ予測精度を向上させる。
この研究は、GMT-2モデルにおけるMCQのアンカードバイアスを包括的に解析し、MCQにおけるGPT2モデルのロバスト性と精度を大幅に向上させる最小限の介入戦略を導入した。
私たちのコードはhttps://github.com/ruizheliUOA/Anchored_Bias_GPT2で利用可能です。
関連論文リスト
- Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.34646723046073]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。
現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。
本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文 参考訳(メタデータ) (2024-10-18T07:52:22Z) - Mitigating Selection Bias with Node Pruning and Auxiliary Options [11.835002896308545]
大規模言語モデル (LLM) は、複数の質問に応答するときに、特定の選択オプションに対して不当な好みを示すことが多い。
以前のソリューションでは、モデルの入力と/または出力を調整するためにデバイアス法を使用していた。
対照的に、我々の研究は選択バイアスのモデルの内部表現を調査している。
論文 参考訳(メタデータ) (2024-09-27T15:53:54Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2024-03-07T19:47:48Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Mitigating Label Biases for In-context Learning [28.209613730240633]
インコンテキスト学習(ICL)のための様々な設計設定は、タスクの理解を反映することなく、特定の予測に向けてモデルをバイアスすることができる。
本研究は,テキスト分類におけるICLの3種類のラベルバイアスに対して,バニララベルバイアス,コンテキストラベルバイアス,ドメインラベルバイアスの3種類のタイプを定義した。
論文 参考訳(メタデータ) (2023-05-28T15:37:39Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。