論文の概要: Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions
- arxiv url: http://arxiv.org/abs/2407.15018v1
- Date: Sun, 21 Jul 2024 00:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:38:36.968946
- Title: Answer, Assemble, Ace: Understanding How Transformers Answer Multiple Choice Questions
- Title(参考訳): Answer, Assemble, Ace: トランスフォーマーが複数の質問に答える方法を理解する
- Authors: Sarah Wiegreffe, Oyvind Tafjord, Yonatan Belinkov, Hannaneh Hajishirzi, Ashish Sabharwal,
- Abstract要約: MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。
我々は,関連する情報を符号化するキー隠蔽状態をローカライズするために,語彙投影とアクティベーションパッチ手法を用いる。
特定の回答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが示される。
- 参考スコア(独自算出の注目度): 103.20281438405111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple-choice question answering (MCQA) is a key competence of performant transformer language models that is tested by mainstream benchmarks. However, recent evidence shows that models can have quite a range of performance, particularly when the task format is diversified slightly (such as by shuffling answer choice order). In this work we ask: how do successful models perform formatted MCQA? We employ vocabulary projection and activation patching methods to localize key hidden states that encode relevant information for predicting the correct answer. We find that prediction of a specific answer symbol is causally attributed to a single middle layer, and specifically its multi-head self-attention mechanism. We show that subsequent layers increase the probability of the predicted answer symbol in vocabulary space, and that this probability increase is associated with a sparse set of attention heads with unique roles. We additionally uncover differences in how different models adjust to alternative symbols. Finally, we demonstrate that a synthetic task can disentangle sources of model error to pinpoint when a model has learned formatted MCQA, and show that an inability to separate answer symbol tokens in vocabulary space is a property of models unable to perform formatted MCQA tasks.
- Abstract(参考訳): MCQA(Multiple-choice Question answering)は、主要なベンチマークによってテストされる高性能トランスフォーマー言語モデルのキーコンピテンスである。
しかし、最近のエビデンスでは、特にタスク形式がわずかに多様化している場合(例えば、答え選択順序をシャッフルするなど)に、モデルは非常に幅広い性能を持つ可能性があることが示されている。
成功したモデルは、どのようにフォーマットされたMCQAを実行するのか?
我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。
特定の解答記号の予測は、一つの中間層、特にその多頭部自己認識機構に因果関係があることが判明した。
後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
さらに、異なるモデルが代替シンボルにどのように適応するかの相違も明らかにした。
最後に,モデルがMCQAを学習した時点で,モデルエラーのソースをピンポイントに切り離すことができることを示すとともに,語彙空間における応答シンボルトークンの分離が不可能であることを示す。
関連論文リスト
- QLSC: A Query Latent Semantic Calibrator for Robust Extractive Question Answering [32.436530949623155]
クエリの潜在セマンティックセンターの特徴を捉えるために,ユニークなスケーリング戦略を提案する。
これらの機能は、従来のクエリとパスの埋め込みにシームレスに統合されます。
提案手法は,テキスト形式の変化に対する感度を低下させ,正確な回答をピンポイントするモデルの能力を高める。
論文 参考訳(メタデータ) (2024-04-30T07:34:42Z) - GSQA: An End-to-End Model for Generative Spoken Question Answering [54.418723701886115]
本稿では,システムに抽象的推論を強制するGSQA(Generative Spoken Question Answering)モデルを提案する。
本モデルでは, 抽出QAデータセットにおいて, 従来の抽出モデルよりも3%上回っている。
我々のGSQAモデルは、幅広い質問に一般化する可能性を示し、それによって、抽象的QAの音声質問応答能力をさらに拡張する。
論文 参考訳(メタデータ) (2023-12-15T13:33:18Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context
in Visual Question Answering [20.35687327831644]
本稿では,視覚質問応答モデル(VQA)の頑健性について,新しい視点から考察する。
SwapMixは、無関係なコンテキストオブジェクトの機能とデータセットの他のオブジェクトの機能とを交換することで、視覚的コンテキストを乱します。
完全視力でモデルをトレーニングし、コンテキストの過度依存が視覚表現の品質に大きく依存していることに気付きます。
論文 参考訳(メタデータ) (2022-04-05T15:32:25Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。