論文の概要: Which Attention Heads Matter for In-Context Learning?
- arxiv url: http://arxiv.org/abs/2502.14010v1
- Date: Wed, 19 Feb 2025 12:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:14.980983
- Title: Which Attention Heads Matter for In-Context Learning?
- Title(参考訳): 文脈内学習にとって、どの注意点が重要か?
- Authors: Kayo Yin, Jacob Steinhardt,
- Abstract要約: 大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示す。
関連するトークンを見つけてコピーする誘導ヘッドと、ICLタスクの潜在エンコーディングを計算する関数ベクトル(FV)ヘッドの2つの異なるメカニズムが提案されている。
誘導頭部とFV頭部を12言語モデルで検討・比較する。
- 参考スコア(独自算出の注目度): 41.048579134842285
- License:
- Abstract: Large language models (LLMs) exhibit impressive in-context learning (ICL) capability, enabling them to perform new tasks using only a few demonstrations in the prompt. Two different mechanisms have been proposed to explain ICL: induction heads that find and copy relevant tokens, and function vector (FV) heads whose activations compute a latent encoding of the ICL task. To better understand which of the two distinct mechanisms drives ICL, we study and compare induction heads and FV heads in 12 language models. Through detailed ablations, we discover that few-shot ICL performance depends primarily on FV heads, especially in larger models. In addition, we uncover that FV and induction heads are connected: many FV heads start as induction heads during training before transitioning to the FV mechanism. This leads us to speculate that induction facilitates learning the more complex FV mechanism that ultimately drives ICL.
- Abstract(参考訳): 大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示し、プロンプトで数回のデモだけで新しいタスクを実行できる。
関連するトークンを見つけてコピーする誘導ヘッドと、ICLタスクの潜在エンコーディングを計算する関数ベクトル(FV)ヘッドの2つの異なるメカニズムが提案されている。
ICLを駆動する2つのメカニズムについてより深く理解するために、12言語モデルにおいて誘導頭部とFV頭部を比較して比較する。
より詳細な説明により、特に大型モデルにおいて、FVヘッドにはほとんどショットICLの性能が依存していることが判明した。
多くのFVヘッドは、FVメカニズムに移行する前に、トレーニング中に誘導ヘッドとして始まります。
これにより、誘導は最終的にICLを駆動するより複雑なFVメカニズムの学習を促進すると推測される。
関連論文リスト
- Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning [12.911829891263263]
誘導ヘッドの最小アブレーションでもICL性能は抽象的パターン認識タスクで最大32%低下することを示す。
NLPタスクの場合、このアブレーションはモデルがサンプルから恩恵を受ける能力を大幅に低下させ、ゼロショットプロンプトに近い数ショットのICLパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-07-09T16:29:21Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - In-context Learning and Induction Heads [5.123049926855312]
インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
論文 参考訳(メタデータ) (2022-09-24T00:43:19Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework
of Vision-and-Language BERTs [57.74359320513427]
ビジョンと言語BERTを事前訓練して、これらの2つの重要なAI領域の交差点での課題に取り組む方法が提案されている。
これら2つのカテゴリの違いについて検討し、単一の理論的枠組みの下でそれらをどのように統合できるかを示す。
5つのV&L BERT間の経験的差異を明らかにするための制御実験を行った。
論文 参考訳(メタデータ) (2020-11-30T18:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。