論文の概要: Distinct mechanisms underlying in-context learning in transformers
- arxiv url: http://arxiv.org/abs/2604.12151v1
- Date: Tue, 14 Apr 2026 00:01:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.167984
- Title: Distinct mechanisms underlying in-context learning in transformers
- Title(参考訳): 変圧器における文脈内学習の基礎となる識別機構
- Authors: Cole Gibson, Wenping Cui, Gautam Reddy,
- Abstract要約: 現代の分散ネットワーク、特にトランスフォーマーは、その計算を入力統計に適応させる顕著な能力(文脈内学習)を取得する。
我々は、離散マルコフ連鎖の有限集合$S$で訓練された変圧器において、この挙動の完全な力学的特徴を与える。
- 参考スコア(独自算出の注目度): 5.844274234531923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern distributed networks, notably transformers, acquire a remarkable ability (termed `in-context learning') to adapt their computation to input statistics, such that a fixed network can be applied to data from a broad range of systems. Here, we provide a complete mechanistic characterization of this behavior in transformers trained on a finite set $S$ of discrete Markov chains. The transformer displays four algorithmic phases, characterized by whether the network memorizes and generalizes, and whether it uses 1-point or 2-point statistics. We show that the four phases are implemented by multi-layer subcircuits that exemplify two qualitatively distinct mechanisms for implementing context-adaptive computations. Minimal models isolate the key features of both motifs. Memorization and generalization phases are delineated by two boundaries that depend on data diversity, $K = |S|$. The first ($K_1^\ast$) is set by a kinetic competition between subcircuits and the second ($K_2^\ast$) is set by a representational bottleneck. A symmetry-constrained theory of a transformer's training dynamics explains the sharp transition from 1-point to 2-point generalization and identifies key features of the loss landscape that allow the network to generalize. Put together, we show that transformers develop distinct subcircuits to implement in-context learning and identify conditions that favor certain mechanisms over others.
- Abstract(参考訳): 現代の分散ネットワーク、特にトランスフォーマーは、その計算を入力統計に適応させる顕著な能力("in-context learning"と呼ばれる)を獲得し、固定ネットワークを広範囲のシステムからのデータに適用することができる。
ここでは、離散マルコフ連鎖の有限集合$S$で訓練された変圧器において、この挙動の完全な力学的特徴を与える。
変換器は、ネットワークが記憶し一般化するか否か、1点統計または2点統計を使用するか否かを特徴とする4つのアルゴリズム位相を表示する。
この4つのフェーズは、コンテキスト適応型計算を実装するための2つの定性的に異なるメカニズムを実証する多層サブ回路によって実装されていることを示す。
最小限のモデルは両方のモチーフの重要な特徴を分離する。
記憶と一般化のフェーズは、データの多様性に依存する2つの境界、すなわち$K = |S|$で表される。
第1(K_1^\ast$)はサブ回路間の運動的競争によって設定され、第2(K_2^\ast$)は表現的ボトルネックによって設定される。
変圧器の訓練力学の対称性に制約のある理論は、1点から2点への急激な遷移を説明し、ネットワークの一般化を可能にするロスランドスケープの重要な特徴を特定する。
まとめると、トランスフォーマーは、文脈内学習を実装し、他者よりも特定のメカニズムを好む条件を特定するために、異なるサブ回路を開発する。
関連論文リスト
- On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions [8.192218166714422]
トランスフォーマーネットワークは幅広い応用において顕著な経験的成功を遂げてきたが、理論的な表現力は未だ十分に理解されていない。
まずトランスフォーマーネットワークによる最大化ネットワークの明示的な近似を確立し,これと同等のモデル複雑性を保ったままにしておく。
その結果、トランスフォーマーは同様の複雑性制約の下でReLUネットワークの普遍近似能力を継承する。
論文 参考訳(メタデータ) (2026-03-03T15:27:15Z) - What One Cannot, Two Can: Two-Layer Transformers Provably Represent Induction Heads on Any-Order Markov Chains [64.31313691823088]
インコンテキスト学習(ICL)は、入力コンテキストからの情報を活用することで、訓練されたモデルが新しいタスクに適応することを学習するトランスフォーマーの能力である。
1層に1つの頭を持つ2層トランスは、実際に任意の条件k-gramを表現可能であることを示す。
論文 参考訳(メタデータ) (2025-08-10T07:03:01Z) - Multiset Transformer: Advancing Representation Learning in Persistence Diagrams [11.512742322405906]
マルチセットトランスフォーマー(Multiset Transformer)は、マルチセットを入力として特別に設計されたアテンションメカニズムを利用するニューラルネットワークである。
このアーキテクチャは、マルチセット強化された注意とプール分解スキームを統合し、同変層にまたがる多重性を維持できる。
実験により、Multiset Transformerは、永続図表表現学習の領域において、既存のニューラルネットワーク手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-22T01:38:47Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Characterization of anomalous diffusion through convolutional
transformers [0.8984888893275713]
本稿では, 異常拡散のキャラクタリゼーションのためのトランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。
新たなアーキテクチャであるConvTransformer(ConvTransformer)は、二層畳み込みニューラルネットワークを使用して、拡散軌道から特徴を抽出します。
我々は,ConvTransformerが,短い軌跡において,基礎となる拡散状態を決定する上で,従来の技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-10T18:53:13Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。