論文の概要: Differential learning kinetics govern the transition from memorization to generalization during in-context learning
- arxiv url: http://arxiv.org/abs/2412.00104v2
- Date: Thu, 12 Dec 2024 16:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:30:25.988271
- Title: Differential learning kinetics govern the transition from memorization to generalization during in-context learning
- Title(参考訳): 文脈内学習における記憶から一般化への遷移の差分学習速度論による制御
- Authors: Alex Nguyen, Gautam Reddy,
- Abstract要約: トランスフォーマーはインコンテキスト学習(ICL: In-context Learning)を示す。
最近の研究は、モデルが十分に多様なタスクセットで訓練されたときにICLが出現することを示している。
記憶・一般化するサブ回路は,主に独立していると考えられる。
- 参考スコア(独自算出の注目度): 0.5555497750998242
- License:
- Abstract: Transformers exhibit in-context learning (ICL): the ability to use novel information presented in the context without additional weight updates. Recent work shows that ICL emerges when models are trained on a sufficiently diverse set of tasks and the transition from memorization to generalization is sharp with increasing task diversity. One interpretation is that a network's limited capacity to memorize favors generalization. Here, we examine the mechanistic underpinnings of this transition using a small transformer applied to a synthetic ICL task. Using theory and experiment, we show that the sub-circuits that memorize and generalize can be viewed as largely independent. The relative rates at which these sub-circuits learn explains the transition from memorization to generalization, rather than capacity constraints. We uncover a memorization scaling law, which determines the task diversity threshold at which the network generalizes. The theory quantitatively explains a variety of other ICL-related phenomena, including the long-tailed distribution of when ICL is acquired, the bimodal behavior of solutions close to the task diversity threshold, the influence of contextual and data distributional statistics on ICL, and the transient nature of ICL.
- Abstract(参考訳): トランスフォーマーはインコンテキスト学習(ICL: In-context Learning)を示す。
最近の研究は、モデルが十分に多様なタスクセットで訓練されたときにICLが出現し、記憶から一般化への移行はタスクの多様性の増大とともに急激であることを示している。
1つの解釈は、ネットワークの記憶能力の制限が一般化に有利であるということである。
本稿では, この遷移の機械的基盤について, 合成ICLタスクに適用した小型変圧器を用いて検討する。
理論と実験により, 記憶・一般化するサブ回路は, ほぼ独立していると考えられることがわかった。
これらのサブ回路が学習する相対速度は、キャパシティ制約ではなく記憶から一般化への遷移を説明する。
我々は,ネットワークが一般化するタスクの多様性しきい値を決定する暗記スケーリング法を明らかにする。
この理論は、ICLが取得されたときの長期分布、タスク多様性閾値に近い解のバイモーダルな挙動、ICLに対する文脈的およびデータ分布統計の影響、ICLの過渡的な性質など、他のICL関連の諸現象を定量的に説明している。
関連論文リスト
- Can Transformers Learn Full Bayesian Inference in Context? [13.479322264788367]
コンテクストでよく使われる統計モデルに対して、変換器はベイズ推定をフルに行うことができることを示す。
本稿では,従来のネットワークと連続正規化フローのアイデアを基盤とした汎用フレームワークを提案する。
実世界のデータセットに対する実験により、我々のICLアプローチは、最先端MCMCや変分推論手法と品質が類似した後部サンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-01-28T10:04:53Z) - Provably Transformers Harness Multi-Concept Word Semantics for Efficient In-Context Learning [53.685764040547625]
トランスフォーマーベースの大規模言語モデル(LLM)は、卓越した創造力と出現能力を示している。
この研究は、トランスフォーマーが単語のマルチコンセプトセマンティクスをどのように活用し、強力なICLと優れたアウト・オブ・ディストリビューションICL能力を実現するかを示すための数学的解析を提供する。
論文 参考訳(メタデータ) (2024-11-04T15:54:32Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
よりシンプルで知識集約的なタスクでは記憶が大きな役割を担い、一方、一般化はより困難で推論に基づくタスクでは鍵となる。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。
我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文 参考訳(メタデータ) (2024-02-23T21:07:20Z) - The Transient Nature of Emergent In-Context Learning in Transformers [28.256651019346023]
トランスフォーマーネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。
トランスフォーマートレーニング中のICLの出現は、しばしば過渡的であることを示す。
ICLが最初に出現し、その後消滅し、トレーニング損失が減少している間にIWLに道を譲る。
論文 参考訳(メタデータ) (2023-11-14T18:03:20Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。