Fugu-MT 論文翻訳(概要): The Transient Nature of Emergent In-Context Learning in Transformers

論文の概要: The Transient Nature of Emergent In-Context Learning in Transformers

arxiv url: http://arxiv.org/abs/2311.08360v3
Date: Mon, 11 Dec 2023 21:42:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 19:21:11.002963
Title: The Transient Nature of Emergent In-Context Learning in Transformers
Title（参考訳）: 変圧器における創発的文脈学習の過渡的性質
Authors: Aaditya K. Singh, Stephanie C.Y. Chan, Ted Moskovitz, Erin Grant, Andrew M. Saxe, Felix Hill
Abstract要約: トランスフォーマーネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。トランスフォーマートレーニング中のICLの出現は、しばしば過渡的であることを示す。 ICLが最初に出現し、その後消滅し、トレーニング損失が減少している間にIWLに道を譲る。
参考スコア（独自算出の注目度）: 28.256651019346023
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer neural networks can exhibit a surprising capacity for in-context learning (ICL) despite not being explicitly trained for it. Prior work has provided a deeper understanding of how ICL emerges in transformers, e.g. through the lens of mechanistic interpretability, Bayesian inference, or by examining the distributional properties of training data. However, in each of these cases, ICL is treated largely as a persistent phenomenon; namely, once ICL emerges, it is assumed to persist asymptotically. Here, we show that the emergence of ICL during transformer training is, in fact, often transient. We train transformers on synthetic data designed so that both ICL and in-weights learning (IWL) strategies can lead to correct predictions. We find that ICL first emerges, then disappears and gives way to IWL, all while the training loss decreases, indicating an asymptotic preference for IWL. The transient nature of ICL is observed in transformers across a range of model sizes and datasets, raising the question of how much to "overtrain" transformers when seeking compact, cheaper-to-run models. We find that L2 regularization may offer a path to more persistent ICL that removes the need for early stopping based on ICL-style validation tasks. Finally, we present initial evidence that ICL transience may be caused by competition between ICL and IWL circuits.
Abstract（参考訳）: トランスフォーマーニューラルネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習(ICL)の驚くべき能力を示すことができる。以前の研究は、例えば機械的解釈可能性のレンズ、ベイズ推論、トレーニングデータの分布特性を調べるなど、トランスフォーマーにおけるICLの出現についてより深い理解を提供してきた。しかし、いずれの場合も、iclは主に持続的な現象として扱われ、iclが出現すると漸近的に持続すると仮定される。ここでは,変圧器の訓練中にiclが出現することは,しばしば過渡的であることを示す。 iclとin-weights learning(iwl)の両方の戦略が正しい予測につながるように設計された合成データでトランスフォーマーを訓練する。まずiclが出現し、その後消滅してiwlに道を譲るが、トレーニング損失は減少し、iwlに対する漸近的な嗜好を示す。 iclの過渡的性質は、様々なモデルサイズやデータセットにわたるトランスフォーマにおいて観察され、コンパクトで安価なモデルを求める際にトランスフォーマを"オーバートレーニング"するコストが問題となる。 l2の正規化は、より永続的なiclへのパスを提供し、iclスタイルの検証タスクに基づいて早期停止の必要性をなくすことができる。最後に, icl回路とiwl回路の競合により, iclの遷移が引き起こされる可能性が示唆された。

関連論文リスト

Dissecting Multimodal In-Context Learning: Modality Asymmetries and Circuit Dynamics in modern Transformers [59.472505916020936]
コンテクスト内の例から,トランスフォーマーがモダリティ間で情報を関連づけることを学ぶ方法について検討する。現代変圧器におけるユニモーダルICLの原理を再考する。メカニスティック分析では、両方の設定は、ラベルをマッチするインコンテキストの例からコピーするインダクションスタイルのメカニズムに依存している。
論文参考訳（メタデータ） (2026-01-28T17:37:28Z)
Unlabeled Data Can Provably Enhance In-Context Learning of Transformers [6.129841115228296]
大規模言語モデル(LLM)は、印象的なインコンテキスト学習(ICL)能力を示すが、その予測の品質は基本的に制限されている。本稿では,ラベルなし入力のブロックとともにラベル付きサンプルの小さなセットを含む新しい拡張ICLフレームワークを提案する。これにより、ラベル付きデータとラベルなしデータの両方から暗黙的に有用な情報を抽出することができ、ICLの精度が向上する。
論文参考訳（メタデータ） (2026-01-15T04:23:32Z)
Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
Transformers Don't In-Context Learn Least Squares Regression [5.648229654902264]
In-context Learning (ICL) は、大規模な事前学習型トランスフォーマーの強力な能力として登場した。我々は、トランスフォーマーが推論時に学習をどのように実装するかを研究する。 ICLの行動形成におけるプレトレーニングコーパスの役割を強調した。
論文参考訳（メタデータ） (2025-07-13T01:09:26Z)
Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers [51.992454203752686]
トランスフォーマーモデルは、IWL(In-weights Learning)とICL(In-context Learning)の2つの異なるモードで学習する。我々は進化生物学の類似した適応戦略である遺伝的エンコーディングと表現型可塑性からインスピレーションを得ている。我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響について検討する。
論文参考訳（メタデータ） (2025-05-14T23:31:17Z)
Strategy Coopetition Explains the Emergence and Transience of In-Context Learning [24.63934469340368]
インコンテキスト学習(ICL)は、トランスフォーマーモデルに現れる強力な能力であり、重み更新なしでコンテキストから学習することができる。最近の研究は、長時間のトレーニング後に消失することがある過渡現象として緊急ICLを確立している。本稿では、これらの重要な力学と相互作用を再現する最小限の数学的モデルを提案する。
論文参考訳（メタデータ） (2025-03-07T17:54:05Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
On the Training Convergence of Transformers for In-Context Classification [20.980349268151546]
本研究は、文脈内分類タスクのための変圧器の訓練力学を理論的に研究することを目的とする。本研究では, ある仮定の下でのガウス混合の文脈内分類において, 勾配勾配から学習した単層変圧器が線形速度で大域的最適モデルに収束することを示した。
論文参考訳（メタデータ） (2024-10-15T16:57:14Z)
Exact Conversion of In-Context Learning to Model Weights in Linearized-Attention Transformers [30.145669421100965]
In-Context Learningは、大きな言語モデルの強力な創発的特性である。線形化変圧器ネットワークでは, バイアス項を含めることで, ICLを明示的かつ永続的にすることができることを示す。我々のアルゴリズム(ICLCA)は、正確な変換を安価に行うことができる。
論文参考訳（メタデータ） (2024-06-05T01:47:40Z)
How Do Nonlinear Transformers Learn and Generalize in In-Context Learning? [82.51626700527837]
トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルが微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が印象的だった。我々は、TransformerがICLを実現する方法の仕組みが、Transformerにおけるトレーニング問題の技術的課題にどのように貢献するかを分析する。
論文参考訳（メタデータ） (2024-02-23T21:07:20Z)
Positional Information Matters for Invariant In-Context Learning: A Case Study of Simple Function Classes [39.08988313527199]
インコンテキストラーニング(In-context Learning, ICL)とは、新しいクエリ入力に対する応答を生成するために、いくつかのインコンテキストデモでモデルに条件を付ける能力である。 LLMの印象的なICL能力にもかかわらず、LSMのICLは入力デモに敏感であり、短い文脈長に限定されている。
論文参考訳（メタデータ） (2023-11-30T02:26:55Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文参考訳（メタデータ） (2023-05-30T21:23:47Z)
Learning Bounded Context-Free-Grammar via LSTM and the Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文参考訳（メタデータ） (2021-12-16T19:56:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。