論文の概要: Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions
- arxiv url: http://arxiv.org/abs/2405.03205v2
- Date: Thu, 23 May 2024 07:47:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:11:11.843166
- Title: Anchored Answers: Unravelling Positional Bias in GPT-2's Multiple-Choice Questions
- Title(参考訳): アンコール回答:GPT-2の多項目質問における位置バイアスの強調
- Authors: Ruizhe Li, Yanjun Gao,
- Abstract要約: GPT-2モデルは、Multiple-choice Question (MCQ)において、常に第一選択の「A」を好んでいる。
このバイアスはGPT-2の意思決定プロセスの完全性に挑戦する。
MCQにおけるGPT2モデルのロバスト性と精度を大幅に向上させるターゲット最小介入戦略を導入する。
- 参考スコア(独自算出の注目度): 4.203455342537068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as the GPT-4 and LLaMA families, have demonstrated considerable success across diverse tasks, including multiple-choice questions (MCQs). However, these models exhibit a positional bias, particularly an even worse anchored bias in the GPT-2 family, where they consistently favour the first choice 'A' in MCQs during inference. This anchored bias challenges the integrity of GPT-2's decision-making process, as it skews performance based on the position rather than the content of the choices in MCQs. In this study, we utilise the mechanistic interpretability approach to identify the internal modules within GPT-2 models responsible for this bias. We focus on the Multi-Layer Perceptron (MLP) layers and attention heads, using the "logit lens" method to trace and modify the specific value vectors that contribute to the bias. By updating these vectors within MLP and recalibrating attention patterns to neutralise the preference for the first choice 'A', we effectively mitigate the anchored bias. Our interventions not only mitigate the bias but also improve the overall MCQ prediction accuracy for the GPT-2 family across various datasets. This work represents the first comprehensive mechanistic analysis of anchored bias in MCQs within the GPT-2 models, introducing targeted, minimal-intervention strategies that significantly enhance GPT2 model robustness and accuracy in MCQs. Our code is available at https://github.com/ruizheliUOA/Anchored_Bias_GPT2.
- Abstract(参考訳): GPT-4やLLaMAファミリーのような大規模言語モデル(LLM)は、マルチチョイス質問(MCQ)を含む様々なタスクでかなりの成功を収めている。
しかしながら、これらのモデルは位置バイアスを示し、特にGPT-2ファミリーではより悪いアンカーバイアスを示し、推論中にMCQで最初に選択する「A」を常に好んでいる。
このバイアスは、GCT-2の意思決定プロセスの完全性に挑戦し、MCQにおける選択の内容ではなく、その位置に基づいて性能を損なう。
本研究では,このバイアスの原因となるGPT-2モデルの内部モジュールを同定するために,機械的解釈可能性アプローチを利用する。
本稿では,マルチ層パーセプトロン(MLP)層とアテンションヘッドに着目し,そのバイアスに寄与する特定の値ベクトルを"logit Lens"法を用いて追跡・修正する。
これらのベクトルをMLP内で更新し、注意パターンを調整して第1選択「A」の好みを中和することにより、アンカーバイアスを効果的に軽減する。
我々の介入はバイアスを軽減するだけでなく、様々なデータセットにわたるGPT-2ファミリーの全体的なMCQ予測精度を向上させる。
この研究は、GMT-2モデルにおけるMCQのアンカードバイアスを包括的に解析し、MCQにおけるGPT2モデルのロバスト性と精度を大幅に向上させる最小限の介入戦略を導入した。
私たちのコードはhttps://github.com/ruizheliUOA/Anchored_Bias_GPT2で利用可能です。
関連論文リスト
- Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
因果的注意は一般的に、モデルが遠方のコンテンツを好むのに対して、RoPEのような相対的な位置エンコーディングは近くのものを好む。
本研究では,異なる入力セグメント順序(例えばLM-as-a-judgeのオプション,QAの検索文書)によって生じる位置バイアスを,TRAINING-FREE ZERO-SHOT方式で推定する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2024-03-07T19:47:48Z) - Mitigating Bias for Question Answering Models by Tracking Bias Influence [84.66462028537475]
本稿では,複数選択QAモデルのバイアスを軽減するためのBMBIを提案する。
バイアスのある例から学んだ場合、モデルがよりバイアスに傾くように傾くという直感に基づいて、クエリインスタンスのバイアスレベルを測定します。
本手法は,複数のバイアスカテゴリにまたがる複数のQA定式化に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:49:09Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Large Language Models Sensitivity to The Order of Options in
Multiple-Choice Questions [5.187383020960245]
大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な機能を示した。
これまでの研究では、これらのモデルが素早い言葉の表現に敏感であること、そして数発のデモとその順序が示されている。
本稿では,複数質問における選択肢の順序に対するLLMの感度について検討する。
論文 参考訳(メタデータ) (2023-08-22T14:54:59Z) - General Debiasing for Multimodal Sentiment Analysis [47.05329012210878]
本稿では,MSAモデルのOF(Out-Of-Distribution)一般化能力を高めることを目的とした,MSAタスクの一般化を提案する。
我々はIPWを用いて、大きなバイアスのあるサンプルの効果を低減し、感情予測のための堅牢な特徴学習を容易にする。
実験結果は,提案フレームワークのより優れた一般化能力を示すものである。
論文 参考訳(メタデータ) (2023-07-20T00:36:41Z) - Mitigating Label Biases for In-context Learning [28.209613730240633]
インコンテキスト学習(ICL)のための様々な設計設定は、タスクの理解を反映することなく、特定の予測に向けてモデルをバイアスすることができる。
本研究は,テキスト分類におけるICLの3種類のラベルバイアスに対して,バニララベルバイアス,コンテキストラベルバイアス,ドメインラベルバイアスの3種類のタイプを定義した。
論文 参考訳(メタデータ) (2023-05-28T15:37:39Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。