論文の概要: Learning In-context $\pmb{n}$-grams with Transformers: Sub-$\pmb{n}$-grams Are Near-stationary Points
- arxiv url: http://arxiv.org/abs/2508.12837v1
- Date: Mon, 18 Aug 2025 11:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.262819
- Title: Learning In-context $\pmb{n}$-grams with Transformers: Sub-$\pmb{n}$-grams Are Near-stationary Points
- Title(参考訳): In-context $\pmb{n}$-grams with Transformers: Sub-$\pmb{n}$-grams are Near-stationary Points
- Authors: Aditya Varre, Gizem Yüce, Nicolas Flammarion,
- Abstract要約: In-context next-token predictionタスクで訓練されたトランスフォーマーモデルの損失状況について検討する。
特に、コンテキスト内$n$-gramの言語モデルをクロスエントロピー損失下で学習することに焦点を当てる。
- 参考スコア(独自算出の注目度): 17.339704162468042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by empirical observations of prolonged plateaus and stage-wise progression during training, we investigate the loss landscape of transformer models trained on in-context next-token prediction tasks. In particular, we focus on learning in-context $n$-gram language models under cross-entropy loss, and establish a sufficient condition for parameter configurations to be stationary points. We then construct a set of parameter configurations for a simplified transformer model that represent $k$-gram estimators (for $k \leq n$), and show that the gradient of the population loss at these solutions vanishes in the limit of infinite sequence length and parameter norm. This reveals a key property of the loss landscape: {sub-$n$-grams are near-stationary points of the population cross-entropy loss}, offering theoretical insight into widely observed phenomena such as stage-wise learning dynamics and emergent phase transitions. These insights are further supported by numerical experiments that illustrate the learning dynamics of $n$-grams, characterized by discrete transitions between near-stationary solutions.
- Abstract(参考訳): 本研究は,長時間の台地と訓練中の段階的進行の実証観測により,コンテキスト内次トーケン予測タスクで訓練された変圧器モデルの損失状況について検討した。
特に,テキスト内$n$-gramの言語モデルをクロスエントロピー損失下で学習することに集中し,パラメータ設定が定常点となるための十分な条件を確立する。
次に、$k$-gram推定器($k \leq n$)を表す単純化されたトランスフォーマーモデルのためのパラメータ構成を構築し、これらの解における集団損失の勾配が無限列長とパラメータノルムの極限で消えることを示す。
sub-$n-grams is near-stationary point of the population cross-entropy loss} 段階的学習力学や創発的相転移のような広く観察された現象に関する理論的知見を提供する。
これらの知見は、準定常解間の離散的な遷移を特徴とする$n$-gramsの学習力学を説明する数値実験によってさらに支持される。
関連論文リスト
- Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。
以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。
我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。
この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文 参考訳(メタデータ) (2025-06-28T01:46:36Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文 参考訳(メタデータ) (2024-03-05T01:30:34Z) - Dynamical versus Bayesian Phase Transitions in a Toy Model of
Superposition [2.3249139042158853]
SLT(Singular Learning Theory)を用いた重ね合わせのトイモデル(TMS)における位相遷移について検討する。
本稿では,局所学習係数がベイズ後部の相転移をトレーニング標本サイズとして決定することを示す支持理論を提案する。
この図は、SGD学習軌跡が逐次学習機構の対象となるという予想を裏付けるものである。
論文 参考訳(メタデータ) (2023-10-10T04:26:04Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Segmentation of high dimensional means over multi-dimensional change
points and connections to regression trees [1.0660480034605242]
この記事では、レグレッションツリーを特徴づけ、実装するための、分析的に抽出可能で、完全に頻繁な新しいフレームワークを提供します。
回帰木への接続は多次元変化軸上の動的平均ベクトルを持つ高次元モデルによって構成される。
結果は高次元スケーリング$slog2 p=o(T_wT_h)で得られ、$p$は応答次元、$s$は空間パラメータ、$T_w,T_h$は変化軸に沿ったサンプリング期間である。
論文 参考訳(メタデータ) (2021-05-20T20:29:48Z) - Mean-field entanglement transitions in random tree tensor networks [0.0]
量子カオス系におけるエンタングルメント相転移は、異なるエンタングルメントスケーリングを持つ位相を分離する新たな臨界点のクラスとして出現している。
ランダムツリーテンソルネットワークの絡み合い特性を研究することにより,そのような遷移の平均場理論を提案する。
論文 参考訳(メタデータ) (2020-03-02T19:00:19Z) - Phase Transitions for the Information Bottleneck in Representation
Learning [14.381429281068565]
Information Bottleneck(IB)では、圧縮と予測項の相対的な強度をチューニングする場合、この2つの用語はどのように振る舞うか、データセットと学習された表現との関係はどのようなものか?
IB損失ランドスケープの質的変化としてIB位相遷移の定義を導入し,その遷移が新しいクラス学習の開始に対応することを示す。
IB相転移の実用的な条件を提供する式を導出し、パラメータ化モデルのフィッシャー情報行列と接続する。
論文 参考訳(メタデータ) (2020-01-07T03:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。