論文の概要: The Transient Nature of Emergent In-Context Learning in Transformers
- arxiv url: http://arxiv.org/abs/2311.08360v1
- Date: Tue, 14 Nov 2023 18:03:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 12:59:25.374404
- Title: The Transient Nature of Emergent In-Context Learning in Transformers
- Title(参考訳): 変圧器における創発的文脈学習の過渡的性質
- Authors: Aaditya K. Singh, Stephanie C.Y. Chan, Ted Moskovitz, Erin Grant,
Andrew M. Saxe, Felix Hill
- Abstract要約: トランスフォーマーネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
トランスフォーマートレーニング中のICLの出現は、しばしば過渡的であることを示す。
ICLが最初に出現し、その後消滅し、トレーニング損失が減少している間にIWLに道を譲る。
- 参考スコア(独自算出の注目度): 28.256651019346023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer neural networks can exhibit a surprising capacity for in-context
learning (ICL) despite not being explicitly trained for it. Prior work has
provided a deeper understanding of how ICL emerges in transformers, e.g.
through the lens of mechanistic interpretability, Bayesian inference, or by
examining the distributional properties of training data. However, in each of
these cases, ICL is treated largely as a persistent phenomenon; namely, once
ICL emerges, it is assumed to persist asymptotically. Here, we show that the
emergence of ICL during transformer training is, in fact, often transient. We
train transformers on synthetic data designed so that both ICL and in-weights
learning (IWL) strategies can lead to correct predictions. We find that ICL
first emerges, then disappears and gives way to IWL, all while the training
loss decreases, indicating an asymptotic preference for IWL. The transient
nature of ICL is observed in transformers across a range of model sizes and
datasets, raising the question of how much to "overtrain" transformers when
seeking compact, cheaper-to-run models. We find that L2 regularization may
offer a path to more persistent ICL that removes the need for early stopping
based on ICL-style validation tasks. Finally, we present initial evidence that
ICL transience may be caused by competition between ICL and IWL circuits.
- Abstract(参考訳): トランスフォーマーニューラルネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
以前の研究は、例えば機械的解釈可能性のレンズ、ベイズ推論、トレーニングデータの分布特性を調べるなど、トランスフォーマーにおけるICLの出現についてより深い理解を提供してきた。
しかし、いずれの場合も、iclは主に持続的な現象として扱われ、iclが出現すると漸近的に持続すると仮定される。
ここでは,変圧器の訓練中にiclが出現することは,しばしば過渡的であることを示す。
iclとin-weights learning(iwl)の両方の戦略が正しい予測につながるように設計された合成データでトランスフォーマーを訓練する。
まずiclが出現し、その後消滅してiwlに道を譲るが、トレーニング損失は減少し、iwlに対する漸近的な嗜好を示す。
iclの過渡的性質は、様々なモデルサイズやデータセットにわたるトランスフォーマにおいて観察され、コンパクトで安価なモデルを求める際にトランスフォーマを"オーバートレーニング"するコストが問題となる。
l2の正規化は、より永続的なiclへのパスを提供し、iclスタイルの検証タスクに基づいて早期停止の必要性をなくすことができる。
最後に, icl回路とiwl回路の競合により, iclの遷移が引き起こされる可能性が示唆された。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - On the Training Convergence of Transformers for In-Context Classification [20.980349268151546]
本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。
本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。
論文 参考訳(メタデータ) (2024-10-15T16:57:14Z) - Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers [30.145669421100965]
In-Context Learningは、大きな言語モデルの強力な創発的特性である。
線形化変圧器ネットワークでは, バイアス項を含めることで, ICLを明示的かつ永続的にすることができることを示す。
我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。
論文 参考訳(メタデータ) (2024-06-05T01:47:40Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - Positional Information Matters for Invariant In-Context Learning: A Case
Study of Simple Function Classes [39.08988313527199]
インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。
LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
論文 参考訳(メタデータ) (2023-11-30T02:26:55Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。