論文の概要: The Transient Nature of Emergent In-Context Learning in Transformers
- arxiv url: http://arxiv.org/abs/2311.08360v3
- Date: Mon, 11 Dec 2023 21:42:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 19:21:11.002963
- Title: The Transient Nature of Emergent In-Context Learning in Transformers
- Title(参考訳): 変圧器における創発的文脈学習の過渡的性質
- Authors: Aaditya K. Singh, Stephanie C.Y. Chan, Ted Moskovitz, Erin Grant,
Andrew M. Saxe, Felix Hill
- Abstract要約: トランスフォーマーネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
トランスフォーマートレーニング中のICLの出現は、しばしば過渡的であることを示す。
ICLが最初に出現し、その後消滅し、トレーニング損失が減少している間にIWLに道を譲る。
- 参考スコア(独自算出の注目度): 28.256651019346023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer neural networks can exhibit a surprising capacity for in-context
learning (ICL) despite not being explicitly trained for it. Prior work has
provided a deeper understanding of how ICL emerges in transformers, e.g.
through the lens of mechanistic interpretability, Bayesian inference, or by
examining the distributional properties of training data. However, in each of
these cases, ICL is treated largely as a persistent phenomenon; namely, once
ICL emerges, it is assumed to persist asymptotically. Here, we show that the
emergence of ICL during transformer training is, in fact, often transient. We
train transformers on synthetic data designed so that both ICL and in-weights
learning (IWL) strategies can lead to correct predictions. We find that ICL
first emerges, then disappears and gives way to IWL, all while the training
loss decreases, indicating an asymptotic preference for IWL. The transient
nature of ICL is observed in transformers across a range of model sizes and
datasets, raising the question of how much to "overtrain" transformers when
seeking compact, cheaper-to-run models. We find that L2 regularization may
offer a path to more persistent ICL that removes the need for early stopping
based on ICL-style validation tasks. Finally, we present initial evidence that
ICL transience may be caused by competition between ICL and IWL circuits.
- Abstract(参考訳): トランスフォーマーニューラルネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
以前の研究は、例えば機械的解釈可能性のレンズ、ベイズ推論、トレーニングデータの分布特性を調べるなど、トランスフォーマーにおけるICLの出現についてより深い理解を提供してきた。
しかし、いずれの場合も、iclは主に持続的な現象として扱われ、iclが出現すると漸近的に持続すると仮定される。
ここでは,変圧器の訓練中にiclが出現することは,しばしば過渡的であることを示す。
iclとin-weights learning(iwl)の両方の戦略が正しい予測につながるように設計された合成データでトランスフォーマーを訓練する。
まずiclが出現し、その後消滅してiwlに道を譲るが、トレーニング損失は減少し、iwlに対する漸近的な嗜好を示す。
iclの過渡的性質は、様々なモデルサイズやデータセットにわたるトランスフォーマにおいて観察され、コンパクトで安価なモデルを求める際にトランスフォーマを"オーバートレーニング"するコストが問題となる。
l2の正規化は、より永続的なiclへのパスを提供し、iclスタイルの検証タスクに基づいて早期停止の必要性をなくすことができる。
最後に, icl回路とiwl回路の競合により, iclの遷移が引き起こされる可能性が示唆された。
関連論文リスト
- Training Nonlinear Transformers for Efficient In-Context Learning: A
Theoretical Learning and Generalization Analysis [88.52724320516342]
トランスフォーマーベースの大規模言語モデルは、いくつかの入力例でクエリを拡大するだけで、トレーニング済みのモデルが微調整なしで新しいタスクを処理できる、印象的なコンテキスト内学習機能を示した。
本稿では,トランスフォーマーの非線型自己注意と非線形活性化に起因するトレーニング問題の最適理論的解析を行う。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Can Transformers Learn Sequential Function Classes In Context? [0.0]
インコンテキスト学習(ICL)は、NLPにおけるトランスフォーマーモデルの能力に革命をもたらした。
我々は,新しいスライディングウィンドウシーケンシャル関数クラスを導入し,GPT-2アーキテクチャを用いた玩具サイズのトランスフォーマーを用いて実験を行った。
解析により,これらのモデルが非テキストシーケンシャル関数クラスでトレーニングされた場合,実際にICLを活用できることが示唆された。
論文 参考訳(メタデータ) (2023-12-19T22:57:13Z) - Positional Information Matters for Invariant In-Context Learning: A Case
Study of Simple Function Classes [39.08988313527199]
インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。
LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
論文 参考訳(メタデータ) (2023-11-30T02:26:55Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - On the Effectiveness of Equivariant Regularization for Robust Online
Continual Learning [17.995662644298974]
継続的な学習(CL)アプローチは、このギャップを埋めるために、以前のタスクと将来のタスクの両方への知識の伝達を容易にする。
近年の研究では、多種多様な下流タスクをうまく一般化できる多目的モデルを作成することができることが示されている。
等変正則化(CLER)による連続学習を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:10:31Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。