論文の概要: In-context Learning and Induction Heads
- arxiv url: http://arxiv.org/abs/2209.11895v1
- Date: Sat, 24 Sep 2022 00:43:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:50:33.542060
- Title: In-context Learning and Induction Heads
- Title(参考訳): インコンテキスト学習と誘導ヘッド
- Authors: Catherine Olsson, Nelson Elhage, Neel Nanda, Nicholas Joseph, Nova
DasSarma, Tom Henighan, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom
Conerly, Dawn Drain, Deep Ganguli, Zac Hatfield-Dodds, Danny Hernandez, Scott
Johnston, Andy Jones, Jackson Kernion, Liane Lovitt, Kamal Ndousse, Dario
Amodei, Tom Brown, Jack Clark, Jared Kaplan, Sam McCandlish, Chris Olah
- Abstract要約: インダクションヘッド(Induction Head)は、トークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
インテキスト学習能力の急激な増加に伴い, 誘導頭部は, ほぼ同程度に発達することがわかった。
- 参考スコア(独自算出の注目度): 5.123049926855312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Induction heads" are attention heads that implement a simple algorithm to
complete token sequences like [A][B] ... [A] -> [B]. In this work, we present
preliminary and indirect evidence for a hypothesis that induction heads might
constitute the mechanism for the majority of all "in-context learning" in large
transformer models (i.e. decreasing loss at increasing token indices). We find
that induction heads develop at precisely the same point as a sudden sharp
increase in in-context learning ability, visible as a bump in the training
loss. We present six complementary lines of evidence, arguing that induction
heads may be the mechanistic source of general in-context learning in
transformer models of any size. For small attention-only models, we present
strong, causal evidence; for larger models with MLPs, we present correlational
evidence.
- Abstract(参考訳): インダクションヘッドは[A][B] ... [A] -> [B] のようなトークンシーケンスを完了するための単純なアルゴリズムを実装するアテンションヘッドである。
本研究では,大きなトランスフォーマーモデル(トークン指標の増加に伴う損失の減少)において,帰納的頭部がすべての「文脈内学習」の大多数のメカニズムを構成するという仮説を予備的かつ間接的に提示する。
誘導頭部は, 訓練損失の増大として, テキスト内学習能力の急激な増加とともに, ほぼ同程度に発達することがわかった。
我々は6つの相補的なエビデンスを示し,任意の大きさの変圧器モデルにおいて誘導ヘッドが一般的な文脈学習の機械的源である可能性を論じた。
小さな注意のみのモデルでは、強い因果関係の証拠を示し、mlpを持つより大きなモデルでは相関関係の証拠を示す。
関連論文リスト
- The twin peaks of learning neural networks [3.6946112817768566]
近年の研究では、ニューラルネットワークの一般化誤差に対する二重発光現象の存在が示されている。
この現象とニューラルネットワークで表される関数の複雑さと感度の増大との関係について検討する。
論文 参考訳(メタデータ) (2024-01-23T10:09:14Z) - Towards Few-shot Inductive Link Prediction on Knowledge Graphs: A
Relational Anonymous Walk-guided Neural Process Approach [49.00753238429618]
知識グラフ上のインダクティブリンク予測は,少数ショットリンクを観測した未確認エンティティのリンク不足を予測することを目的としている。
近年の帰納的手法は、目に見えない実体を取り巻く部分グラフを用いて意味情報を取得し、リンクを誘導的に予測する。
本稿では,知識グラフ上の数ショットの帰納的リンク予測をRawNPと表記する,新しいリレーショナル匿名型歩行誘導ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-06-26T12:02:32Z) - In-Context Learning through the Bayesian Prism [7.708943730059218]
インコンテキスト学習は、大きな言語モデルの驚きと有用な特徴の1つである。
本稿では,この理想学習者の行動を示すトランスフォーマーの実証的証拠を示す。
テキスト内学習は、事前学習したデータ分布に応じて、単純さの偏りがあるかもしれないし、そうでないかもしれない。
論文 参考訳(メタデータ) (2023-06-08T02:38:23Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Beyond Transformers for Function Learning [0.6768558752130311]
単純な関数を学習し、予測する能力は、人間の知性の重要な側面である。
最近の研究はトランスフォーマーアーキテクチャを使ってこの能力を探求し始めている。
2つの単純な帰納的学習バイアスでトランスフォーマーアーキテクチャを拡張することで、このギャップに対処することを提案する。
論文 参考訳(メタデータ) (2023-04-19T21:33:06Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Multiformer: A Head-Configurable Transformer-Based Model for Direct
Speech Translation [0.0]
MultiformerはTransformerベースのモデルであり、各ヘッドに異なるアテンションメカニズムを使用することができる。
これを行うことで、モデルはより多様なトークン相互作用の抽出に自己注意を偏らせることができる。
その結果、異なる頭部と層に沿った注意パターンの混合は、我々の基準線を最大0.7BLEUで上回ることがわかった。
論文 参考訳(メタデータ) (2022-05-14T17:37:47Z) - Differentiable Subset Pruning of Transformer Heads [71.7904179689271]
差別化可能なサブセットプルーニングと呼ぶ新しいヘッドプルーニング手法を導入する。
分割可能なサブセットプルーニングは,スパーシリティレベルを正確に制御しながら,従来の作業と同等あるいは良好に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-08-10T13:08:34Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。