Fugu-MT 論文翻訳(概要): Learning In-context n-grams with Transformers: Sub-n-grams Are Near-stationary Points

論文の概要: Learning In-context n-grams with Transformers: Sub-n-grams Are Near-stationary Points

arxiv url: http://arxiv.org/abs/2508.12837v2
Date: Tue, 19 Aug 2025 09:36:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-20 13:30:22.897917
Title: Learning In-context n-grams with Transformers: Sub-n-grams Are Near-stationary Points
Title（参考訳）: In-context n-grams with Transformers: Sub-n-grams are Near-stationary Points
Authors: Aditya Varre, Gizem Yüce, Nicolas Flammarion,
Abstract要約: In-context next-token predictionタスクで訓練されたトランスフォーマーモデルの損失状況について検討する。特に、コンテキスト内$n$-gramの言語モデルをクロスエントロピー損失下で学習することに焦点を当てる。
参考スコア（独自算出の注目度）: 17.339704162468042
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Motivated by empirical observations of prolonged plateaus and stage-wise progression during training, we investigate the loss landscape of transformer models trained on in-context next-token prediction tasks. In particular, we focus on learning in-context $n$-gram language models under cross-entropy loss, and establish a sufficient condition for parameter configurations to be stationary points. We then construct a set of parameter configurations for a simplified transformer model that represent $k$-gram estimators (for $k \leq n$), and show that the gradient of the population loss at these solutions vanishes in the limit of infinite sequence length and parameter norm. This reveals a key property of the loss landscape: {sub-$n$-grams are near-stationary points of the population cross-entropy loss}, offering theoretical insight into widely observed phenomena such as stage-wise learning dynamics and emergent phase transitions. These insights are further supported by numerical experiments that illustrate the learning dynamics of $n$-grams, characterized by discrete transitions between near-stationary solutions.
Abstract（参考訳）: 本研究は,長時間の台地と訓練中の段階的進行の実証観測により,コンテキスト内次トーケン予測タスクで訓練された変圧器モデルの損失状況について検討した。特に,テキスト内$n$-gramの言語モデルをクロスエントロピー損失下で学習することに集中し,パラメータ設定が定常点となるための十分な条件を確立する。次に、$k$-gram推定器($k \leq n$)を表す単純化されたトランスフォーマーモデルのためのパラメータ構成を構築し、これらの解における集団損失の勾配が無限列長とパラメータノルムの極限で消えることを示す。 sub-$n-grams is near-stationary point of the population cross-entropy loss} 段階的学習力学や創発的相転移のような広く観察された現象に関する理論的知見を提供する。これらの知見は、準定常解間の離散的な遷移を特徴とする$n$-gramsの学習力学を説明する数値実験によってさらに支持される。

関連論文リスト

Scale-Consistent State-Space Dynamics via Fractal of Stationary Transformations [9.983526161001997]
最近のディープラーニングモデルは、中間表現の妥当性に関する構造的な保証なしに、ますます深度に依存している。我々は、状態空間モデルのスケール一貫性潜在力学の構造的要件を定式化することにより、この制限に対処する。我々は予測されたスケール一貫性の挙動を実証的に検証し、適応効率がアライメントされた潜在幾何学から現れることを示す。
論文参考訳（メタデータ） (2026-01-27T12:44:20Z)
Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文参考訳（メタデータ） (2026-01-16T23:11:02Z)
Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility [90.894232610821]
我々は、ランク構造のレンズを通してトランスフォーマーを解析する。時系列埋め込みは急激な減衰特異値スペクトルを示すことを示す。関連する$Q/K/V$プロジェクションが正確な低ランク近似を持つことを示す。
論文参考訳（メタデータ） (2025-10-02T23:56:17Z)
Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。 SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文参考訳（メタデータ） (2025-09-27T00:46:29Z)
Generalized Linear Mode Connectivity for Transformers [87.32299363530996]
驚くべき現象はリニアモード接続(LMC)であり、独立に訓練されたモデルを低損失またはゼロ損失の経路で接続することができる。以前の研究は主に置換によるニューロンの並べ替えに焦点を合わせてきたが、そのようなアプローチは範囲に限られている。我々は、4つの対称性クラス(置換、半置換、変換、一般可逆写像)をキャプチャする統一的なフレームワークを導入する。この一般化により、独立に訓練された視覚変換器とGPT-2モデルの間の低障壁とゼロバリア線形経路の発見が可能となった。
論文参考訳（メタデータ） (2025-06-28T01:46:36Z)
On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。 We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文参考訳（メタデータ） (2024-10-29T03:27:56Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Relative Representations: Topological and Geometric Perspectives [50.85040046976025]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文参考訳（メタデータ） (2024-09-17T08:09:22Z)
What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文参考訳（メタデータ） (2024-06-04T05:30:16Z)
Geometric Dynamics of Signal Propagation Predict Trainability of Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文参考訳（メタデータ） (2024-03-05T01:30:34Z)
Dynamical versus Bayesian Phase Transitions in a Toy Model of Superposition [2.3249139042158853]
SLT(Singular Learning Theory)を用いた重ね合わせのトイモデル(TMS)における位相遷移について検討する。本稿では,局所学習係数がベイズ後部の相転移をトレーニング標本サイズとして決定することを示す支持理論を提案する。この図は、SGD学習軌跡が逐次学習機構の対象となるという予想を裏付けるものである。
論文参考訳（メタデータ） (2023-10-10T04:26:04Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Regularization, early-stopping and dreaming: a Hopfield-like setup to address generalization and overfitting [0.0]
正規化損失関数に勾配降下を適用し,最適ネットワークパラメータを求める。この枠組みの中で、最適なニューロン相互作用行列は、繰り返し学習プロトコルによって修正されたヘビアン核に対応する。
論文参考訳（メタデータ） (2023-08-01T15:04:30Z)
Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文参考訳（メタデータ） (2021-09-03T09:25:57Z)
Segmentation of high dimensional means over multi-dimensional change points and connections to regression trees [1.0660480034605242]
この記事では、レグレッションツリーを特徴づけ、実装するための、分析的に抽出可能で、完全に頻繁な新しいフレームワークを提供します。回帰木への接続は多次元変化軸上の動的平均ベクトルを持つ高次元モデルによって構成される。結果は高次元スケーリング$slog2 p=o(T_wT_h)で得られ、$p$は応答次元、$s$は空間パラメータ、$T_w,T_h$は変化軸に沿ったサンプリング期間である。
論文参考訳（メタデータ） (2021-05-20T20:29:48Z)
On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文参考訳（メタデータ） (2020-10-10T07:00:57Z)
Mean-field entanglement transitions in random tree tensor networks [0.0]
量子カオス系におけるエンタングルメント相転移は、異なるエンタングルメントスケーリングを持つ位相を分離する新たな臨界点のクラスとして出現している。ランダムツリーテンソルネットワークの絡み合い特性を研究することにより,そのような遷移の平均場理論を提案する。
論文参考訳（メタデータ） (2020-03-02T19:00:19Z)
Phase Transitions for the Information Bottleneck in Representation Learning [14.381429281068565]
Information Bottleneck(IB)では、圧縮と予測項の相対的な強度をチューニングする場合、この2つの用語はどのように振る舞うか、データセットと学習された表現との関係はどのようなものか? IB損失ランドスケープの質的変化としてIB位相遷移の定義を導入し,その遷移が新しいクラス学習の開始に対応することを示す。 IB相転移の実用的な条件を提供する式を導出し、パラメータ化モデルのフィッシャー情報行列と接続する。
論文参考訳（メタデータ） (2020-01-07T03:55:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。