論文の概要: Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales
- arxiv url: http://arxiv.org/abs/2603.15678v1
- Date: Sat, 14 Mar 2026 04:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.876462
- Title: Spectral Edge Dynamics of Training Trajectories: Signal--Noise Geometry Across Scales
- Title(参考訳): 訓練軌道のスペクトルエッジダイナミクス:信号-雑音幾何学
- Authors: Yongzhong Xu,
- Abstract要約: 本稿では,この構造を測定するためにEmphSpectral Edge Dynamics (SED)を導入する。
共同作業では、同じスペクトル幾何学がグラッキングの早期警戒信号を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite hundreds of millions of parameters, transformer training trajectories evolve within only a few coherent directions. We introduce \emph{Spectral Edge Dynamics} (SED) to measure this structure: rolling-window SVD of parameter updates reveals a sharp boundary -- the \emph{spectral edge} -- between coherent optimization directions and stochastic noise, identified by the maximum consecutive singular value ratio $σ_k/σ_{k+1}$. Across a 51M-parameter TinyStories model (4~seeds) and GPT-2 124M under a distribution shift, the spectral edge exhibits a universal three-phase pattern (rise, plateau, collapse), signal rank adjusts with task complexity ($k^* = 2$ at 51M, $k^* = 3$ at 124M), and the directional coupling between spectral geometry and validation loss reverses with window size -- a \emph{lag flip} reflecting the timescale of trajectory integration. Johnson--Lindenstrauss projection to $d = 10W$ dimensions (e.g., $d = 100$ for $W = 10$) preserves the spectral gap within 5.7\%, making the framework applicable to models of arbitrary size. In companion work, the same spectral geometry provides early-warning signals of grokking -- predicting generalization 600--1{,}700 steps before it occurs across modular arithmetic, Dyck languages, and the SCAN benchmark.
- Abstract(参考訳): 数億のパラメータにもかかわらず、トランスフォーマーの訓練軌道はわずか数個のコヒーレントな方向で進化する。
パラメータ更新のローリングウインドウSVDは、コヒーレントな最適化方向と確率的雑音の間の鋭い境界を明らかにし、最大連続特異値比$σ_k/σ_{k+1}$で識別する。
51MパラメータのTinyStoriesモデル(4〜シード)とGPT-2 124Mの分散シフトの下で、スペクトルエッジは普遍的な3相パターン(ライズ、プラトー、崩壊)を示し、信号ランクはタスクの複雑さで調整される(k^* = 2$ at 51M, $k^* = 3$ at 124M)。
同じスペクトル幾何学は、モジュラー算術、Dyck言語、SCANベンチマークで起こる前に600--1{,}700ステップの一般化を予測する。
関連論文リスト
- GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models [6.2676602262188625]
VLAモデルは、内在的な幾何学構造を持たない2次元パッチトークンとして視覚観察を符号化する。
GST-VLAを2つのコントリビューションで紹介する。
第一に、ガウス空間Tokenizer (GST) は凍った深度と凍ったセマンティックパッチの特徴を3Dプリミティブに変換する。
第二に、DA-CoT推論は4つの構造化された中間空間的思考を監督する。
論文 参考訳(メタデータ) (2026-03-10T01:39:38Z) - Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement [0.0]
視覚言語モデルは、それらのテキスト経路が表現できないような幾何学を符号化する。
ロラ微調整(r=16, 2,000枚)は、このギャップを6.5度に縮める。
これらの知見は、単一の凍結したバックボーンがマルチタスク幾何学的センサーとして機能することを可能にした。
論文 参考訳(メタデータ) (2026-03-06T16:48:27Z) - Anatomy of Capability Emergence: Scale-Invariant Representation Collapse and Top-Down Reorganization in Neural Networks [1.5567685129899713]
5つのモデルスケールで5つの幾何測度をトラックする。
トレーニングは、タスク固有のフロアへの普遍的な表現の崩壊から始まります。
ピキアでは、グローバルな幾何学的パターンが再現されるが、タスクごとの前兆信号は再現しない。
論文 参考訳(メタデータ) (2026-02-17T20:39:02Z) - Structure-Informed Estimation for Pilot-Limited MIMO Channels via Tensor Decomposition [51.56484100374058]
本稿では、スパース観測から低ランクテンソル完備化としてパイロットリミテッドチャネル推定を定式化する。
合成チャネル実験による最小二乗平均二乗誤差(NMSE)の最小二乗平均誤差(LS)に対する改善
DeepMIMO線トレーシングチャネルの評価では、純粋なテンソル法よりも24-44%NMSEが減少している。
論文 参考訳(メタデータ) (2026-02-03T23:38:05Z) - Robust inverse material design with physical guarantees using the Voigt-Reuss Net [0.0]
本稿では, ハード物理保証を伴う前方および逆機械的均質化のためのスペクトル正規化サロゲートを提案する。
バイファシック・マイクロ構造のオープンデータセット上の3次元線形弾性では、完全に接続されたVoigt-Reussネットは、236のイソトロピーインディスクリプタを持つFFTベースのラベルでトレーニングされている。
全体として、Voigt-Reussネットは、大バッチで制約に一貫性のある逆設計で正確で物理的に許容できる前方予測を統一する。
論文 参考訳(メタデータ) (2025-11-14T15:17:37Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Minimum optical depth multiport interferometers for approximating arbitrary unitary operations and pure states [37.69303106863453]
我々は、マルチポート干渉計を用いて、純状態の準備とユニタリ操作を与えられた不忠実さで近似する問題に対処する。
数値計算により、任意の次元$d$の純粋な状態が不忠実で作成できることが示される。
論文 参考訳(メタデータ) (2020-02-04T15:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。