論文の概要: In-context Learning and Induction Heads
- arxiv url: http://arxiv.org/abs/2209.11895v1
- Date: Sat, 24 Sep 2022 00:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:50:33.542060
- Title: In-context Learning and Induction Heads
- Title(参考訳): インコンテキスト学習と誘導ヘッド
- Authors: Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova
DasSarma, Tom Henighan, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom
Conerly, Dawn Drain, Deep Ganguli, Zac Hatfield-Dodds, Danny Hernandez, Scott
Johnston, Andy Jones, Jackson Kernion, Liane Lovitt, Kamal Ndousse, Dario
Amodei, Tom Brown, Jack Clark, Jared Kaplan, Sam McCandlish, Chris Olah
- Abstract要約: インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
- 参考スコア(独自算出の注目度): 5.123049926855312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Induction heads" are attention heads that implement a simple algorithm to
complete token sequences like [A][B] ... [A] -> [B]. In this work, we present
preliminary and indirect evidence for a hypothesis that induction heads might
constitute the mechanism for the majority of all "in-context learning" in large
transformer models (i.e. decreasing loss at increasing token indices). We find
that induction heads develop at precisely the same point as a sudden sharp
increase in in-context learning ability, visible as a bump in the training
loss. We present six complementary lines of evidence, arguing that induction
heads may be the mechanistic source of general in-context learning in
transformer models of any size. For small attention-only models, we present
strong, causal evidence; for larger models with MLPs, we present correlational
evidence.
- Abstract(参考訳): インダクションヘッドは[A][B] ... [A] -> [B] のようなトークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
本研究では,大きなトランスフォーマーモデル(トークン指標の増加に伴う損失の減少)において,帰納的頭部がすべての「文脈内学習」の大多数のメカニズムを構成するという仮説を予備的かつ間接的に提示する。
誘導頭部は, 訓練損失の増大として, テキスト内学習能力の急激な増加とともに, ほぼ同程度に発達することがわかった。
我々は6つの相補的なエビデンスを示し,任意の大きさの変圧器モデルにおいて誘導ヘッドが一般的な文脈学習の機械的源である可能性を論じた。
小さな注意のみのモデルでは、強い因果関係の証拠を示し、mlpを持つより大きなモデルでは相関関係の証拠を示す。
関連論文リスト
- Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。
この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。
実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-10-31T12:33:26Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - On the Inductive Bias of Stacking Towards Improving Reasoning [50.225873619537765]
言語モデルのトレーニングを最大40%高速化できるMIDASと呼ばれる段階的スタック方式を提案する。
MIDASはトレーニング効率だけでなく、ダウンストリームタスクを改善するための誘導バイアスも備えている。
我々は、この帰納バイアスの根底にある理由を、ループモデルへの積み重ねの接続を探索することによって推測する。
論文 参考訳(メタデータ) (2024-09-27T17:58:21Z) - Graph Stochastic Neural Process for Inductive Few-shot Knowledge Graph Completion [63.68647582680998]
I-FKGC(inductive few-shot knowledge graph completion)と呼ばれる課題に焦点をあてる。
帰納的推論(inductive reasoning)の概念に着想を得て,I-FKGCを帰納的推論問題とした。
本稿では,仮説の連成分布をモデル化したニューラルプロセスに基づく仮説抽出器を提案する。
第2のモジュールでは、この仮説に基づいて、クエリセットのトリプルが抽出された仮説と一致するかどうかをテストするグラフアテンションベースの予測器を提案する。
論文 参考訳(メタデータ) (2024-08-03T13:37:40Z) - Linking In-context Learning in Transformers to Human Episodic Memory [1.124958340749622]
我々は,トランスフォーマーに基づく大規模言語モデルにおいて,文脈内学習に寄与する帰納的頭部に焦点を当てた。
本研究では,インダクションヘッドの動作,機能,機械的特性が,ヒトのエピソード記憶の文脈的保守と検索モデルに類似していることを示す。
論文 参考訳(メタデータ) (2024-05-23T18:51:47Z) - The twin peaks of learning neural networks [3.382017614888546]
近年の研究では、ニューラルネットワークの一般化誤差に対する二重発光現象の存在が示されている。
この現象とニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。
論文 参考訳(メタデータ) (2024-01-23T10:09:14Z) - Towards Few-shot Inductive Link Prediction on Knowledge Graphs: A
Relational Anonymous Walk-guided Neural Process Approach [49.00753238429618]
知識グラフ上のインダクティブリンク予測は,少数ショットリンクを観測した未確認エンティティのリンク不足を予測することを目的としている。
近年の帰納的手法は、目に見えない実体を取り巻く部分グラフを用いて意味情報を取得し、リンクを誘導的に予測する。
本稿では,知識グラフ上の数ショットの帰納的リンク予測をRawNPと表記する,新しいリレーショナル匿名型歩行誘導ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-26T12:02:32Z) - Beyond Transformers for Function Learning [0.6768558752130311]
単純な関数を学習し、予測する能力は、人間の知性の重要な側面である。
最近の研究はトランスフォーマーアーキテクチャを使ってこの能力を探求し始めている。
2つの単純な帰納的学習バイアスでトランスフォーマーアーキテクチャを拡張することで、このギャップに対処することを提案する。
論文 参考訳(メタデータ) (2023-04-19T21:33:06Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。