論文の概要: Early-stopping for Transformer model training
- arxiv url: http://arxiv.org/abs/2510.16074v1
- Date: Fri, 17 Oct 2025 09:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.830481
- Title: Early-stopping for Transformer model training
- Title(参考訳): トランスフォーマーモデルの早期学習
- Authors: Jing He, Hua Jiang, Cheng Li, Siqian Xin, Shuzhen Yang,
- Abstract要約: 本研究では、トランスフォーマーのトレーニング力学を解析するためのランダム行列理論(RMT)に基づく新しい理論フレームワークを導入する。
我々は、パフォーマンス改善を推進し、アーリーストッピングの基準を導出する基盤となるメカニズムに焦点を当てる。
- 参考スコア(独自算出の注目度): 8.87728311642506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work introduces a novel theoretical framework grounded in Random Matrix Theory (RMT) for analyzing Transformer training dynamics. We focus on the underlying mechanisms that drive performance improvements and derive principled early-stopping criteria. Empirically, we observe that the spectral density of the shallow self-attention matrix V consistently evolves into a heavy-tailed distribution. Utilizing the PL (Power Law) fit to this matrix as a probe, we demarcate training into three stages: structural exploration, heavy-tailed structure stabilization, and convergence saturation. This staging provides guidance for preliminary stopping decisions. Crucially, we propose two consistent and validation-free criteria: a quantitative metric for heavy-tailed dynamics and a novel spectral signature indicative of convergence. The strong alignment between these criteria highlights the utility of RMT for monitoring and diagnosing the progression of Transformer model training.
- Abstract(参考訳): 本研究では、トランスフォーマーのトレーニング力学を解析するためのランダム行列理論(RMT)に基づく新しい理論フレームワークを導入する。
我々は、パフォーマンス改善を推進し、アーリーストッピングの基準を導出する基盤となるメカニズムに焦点を当てる。
実験によって、浅い自己アテンション行列 V のスペクトル密度は、常に重み付き分布へと変化する。
PL (Power Law) をプローブとして, 構造探査, 重尾構造安定化, 収束飽和の3段階に分類した。
このステージングは、決定を予備的に停止するためのガイダンスを提供する。
本稿では,重み付き力学の定量的測定基準と,収束を示す新しいスペクトルシグネチャ指標という,一貫した,検証不要な2つの基準を提案する。
これらの基準の強い一致は、Transformerモデルトレーニングの進捗をモニタリングし、診断するためのRTTの有用性を強調している。
関連論文リスト
- From Condensation to Rank Collapse: A Two-Stage Analysis of Transformer Training Dynamics [3.247992990696076]
我々は勾配流解析フレームワークを用いて線形化トランスフォーマーのトレーニング力学を体系的に研究する。
我々の理論的解析は、注意モジュールの力学を2つの異なる段階に分解する。
論文 参考訳(メタデータ) (2025-10-08T12:37:53Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - On the Convergence of Gradient Descent on Learning Transformers with Residual Connections [26.02176724426513]
本研究では, 自己アテンション, フィードフォワードネットワーク, 残差接続を含む構造的に完全な単一層トランスの収束挙動を解析する。
残余接続はこの出力行列の不調和を改善するのに役立ち、これはソフトマックス演算によって課される低ランク構造から生じる問題である。
論文 参考訳(メタデータ) (2025-06-05T17:10:22Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。