Fugu-MT 論文翻訳(概要): In-context Learning and Induction Heads

論文の概要: In-context Learning and Induction Heads

arxiv url: http://arxiv.org/abs/2209.11895v1
Date: Sat, 24 Sep 2022 00:43:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 16:50:33.542060
Title: In-context Learning and Induction Heads
Title（参考訳）: インコンテキスト学習と誘導ヘッド
Authors: Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova DasSarma, Tom Henighan, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom Conerly, Dawn Drain, Deep Ganguli, Zac Hatfield-Dodds, Danny Hernandez, Scott Johnston, Andy Jones, Jackson Kernion, Liane Lovitt, Kamal Ndousse, Dario Amodei, Tom Brown, Jack Clark, Jared Kaplan, Sam McCandlish, Chris Olah
Abstract要約: インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
参考スコア（独自算出の注目度）: 5.123049926855312
License: http://creativecommons.org/licenses/by/4.0/
Abstract: "Induction heads" are attention heads that implement a simple algorithm to complete token sequences like [A][B] ... [A] -> [B]. In this work, we present preliminary and indirect evidence for a hypothesis that induction heads might constitute the mechanism for the majority of all "in-context learning" in large transformer models (i.e. decreasing loss at increasing token indices). We find that induction heads develop at precisely the same point as a sudden sharp increase in in-context learning ability, visible as a bump in the training loss. We present six complementary lines of evidence, arguing that induction heads may be the mechanistic source of general in-context learning in transformer models of any size. For small attention-only models, we present strong, causal evidence; for larger models with MLPs, we present correlational evidence.
Abstract（参考訳）: インダクションヘッドは[A][B] ... [A] -> [B] のようなトークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。本研究では,大きなトランスフォーマーモデル(トークン指標の増加に伴う損失の減少)において,帰納的頭部がすべての「文脈内学習」の大多数のメカニズムを構成するという仮説を予備的かつ間接的に提示する。誘導頭部は, 訓練損失の増大として, テキスト内学習能力の急激な増加とともに, ほぼ同程度に発達することがわかった。我々は6つの相補的なエビデンスを示し,任意の大きさの変圧器モデルにおいて誘導ヘッドが一般的な文脈学習の機械的源である可能性を論じた。小さな注意のみのモデルでは、強い因果関係の証拠を示し、mlpを持つより大きなモデルでは相関関係の証拠を示す。

関連論文リスト

Induction Head Toxicity Mechanistically Explains Repetition Curse in Large Language Models [24.666925550391024]
我々は誘導ヘッドを繰り返しの呪いのキードライバーとみなす。本稿では,誘導ヘッドの世代別優位性を抑えるため,注目頭部規則化手法を提案する。
論文参考訳（メタデータ） (2025-05-17T03:09:33Z)
The Dual-Route Model of Induction [19.752542337008773]
概念レベルの誘導ヘッドを導入し、個々のトークンの代わりに語彙単位全体をコピーする。概念誘導ヘッドは単語レベルの翻訳のような意味的なタスクに責任があることを示し、一方トークン誘導ヘッドは動詞でしかできないタスクには不可欠である。
論文参考訳（メタデータ） (2025-04-03T20:40:31Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
Rethinking Associative Memory Mechanism in Induction Head [37.93644115914534]
本稿では,2層トランスフォーマーがコンテキスト内情報を網羅的に捕捉し,事前学習したビッグラム知識とバランスをとる方法について検討する。本稿では,注目層における重み行列の表現と,変換器がビッグラムモデルによって生成されたプロンプトを付与した場合のロジットを理論的に解析する。
論文参考訳（メタデータ） (2024-12-16T05:33:05Z)
KV Shifting Attention Enhances Language Modeling [10.265219156828907]
現在の大規模言語モデルは、主に、文脈内学習能力の優れたデコードのみの構造変換器に基づいている。モデル誘導の能力をより効率的に実装するために、KVシフト注意を提案する。実験結果から,KVシフト注意が学習誘導ヘッドや言語モデリングに有用であることが示唆された。
論文参考訳（メタデータ） (2024-11-29T09:42:38Z)
Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-10-31T12:33:26Z)
Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文参考訳（メタデータ） (2024-10-30T14:09:00Z)
On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。 MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文参考訳（メタデータ） (2024-09-27T17:58:21Z)
Graph Stochastic Neural Process for Inductive Few-shot Knowledge Graph Completion [63.68647582680998]
I-FKGC(inductive few-shot knowledge graph completion)と呼ばれる課題に焦点をあてる。帰納的推論(inductive reasoning)の概念に着想を得て,I-FKGCを帰納的推論問題とした。本稿では,仮説の連成分布をモデル化したニューラルプロセスに基づく仮説抽出器を提案する。第2のモジュールでは、この仮説に基づいて、クエリセットのトリプルが抽出された仮説と一致するかどうかをテストするグラフアテンションベースの予測器を提案する。
論文参考訳（メタデータ） (2024-08-03T13:37:40Z)
Linking In-context Learning in Transformers to Human Episodic Memory [1.124958340749622]
我々は,トランスフォーマーに基づく大規模言語モデルにおいて,文脈内学習に寄与する帰納的頭部に焦点を当てた。本研究では,インダクションヘッドの動作,機能,機械的特性が,ヒトのエピソード記憶の文脈的保守と検索モデルに類似していることを示す。
論文参考訳（メタデータ） (2024-05-23T18:51:47Z)
The twin peaks of learning neural networks [3.382017614888546]
近年の研究では、ニューラルネットワークの一般化誤差に対する二重発光現象の存在が示されている。この現象とニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。
論文参考訳（メタデータ） (2024-01-23T10:09:14Z)
Towards Few-shot Inductive Link Prediction on Knowledge Graphs: A Relational Anonymous Walk-guided Neural Process Approach [49.00753238429618]
知識グラフ上のインダクティブリンク予測は,少数ショットリンクを観測した未確認エンティティのリンク不足を予測することを目的としている。近年の帰納的手法は、目に見えない実体を取り巻く部分グラフを用いて意味情報を取得し、リンクを誘導的に予測する。本稿では,知識グラフ上の数ショットの帰納的リンク予測をRawNPと表記する,新しいリレーショナル匿名型歩行誘導ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2023-06-26T12:02:32Z)
Beyond Transformers for Function Learning [0.6768558752130311]
単純な関数を学習し、予測する能力は、人間の知性の重要な側面である。最近の研究はトランスフォーマーアーキテクチャを使ってこの能力を探求し始めている。 2つの単純な帰納的学習バイアスでトランスフォーマーアーキテクチャを拡張することで、このギャップに対処することを提案する。
論文参考訳（メタデータ） (2023-04-19T21:33:06Z)
Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文参考訳（メタデータ） (2022-11-01T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。