論文の概要: Hidden Dynamics of Massive Activations in Transformer Training
- arxiv url: http://arxiv.org/abs/2508.03616v1
- Date: Tue, 05 Aug 2025 16:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:56.075197
- Title: Hidden Dynamics of Massive Activations in Transformer Training
- Title(参考訳): 変圧器訓練における大量活性化の隠れダイナミクス
- Authors: Jorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos,
- Abstract要約: 大規模なアクティベーションは、典型的なアクティベーションよりも桁違いに大きい値を達成する変圧器隠蔽状態におけるスカラー値である。
本報告では, トランスフォーマートレーニングを通しての大規模活性化発達の包括的解析について述べる。
アーキテクチャ仕様だけでこれらの数学的パラメータを予測する機械学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive activations are scalar values in transformer hidden states that achieve values orders of magnitude larger than typical activations and have been shown to be critical for model functionality. While prior work has characterized these phenomena in fully trained models, the temporal dynamics of their emergence during training remain poorly understood. We present the first comprehensive analysis of massive activation development throughout transformer training, using the Pythia model family as our testbed. Through systematic analysis of various model sizes across multiple training checkpoints, we demonstrate that massive activation emergence follows predictable mathematical patterns that can be accurately modeled using an exponentially-modulated logarithmic function with five key parameters. We develop a machine learning framework to predict these mathematical parameters from architectural specifications alone, achieving high accuracy for steady-state behavior and moderate accuracy for emergence timing and magnitude. These findings enable architects to predict and potentially control key aspects of massive activation emergence through design choices, with significant implications for model stability, training cycle length, interpretability, and optimization. Our findings demonstrate that the emergence of massive activations is governed by model design and can be anticipated, and potentially controlled, before training begins.
- Abstract(参考訳): 大規模なアクティベーションは、典型的なアクティベーションよりも桁違いに大きい値を達成するトランスフォーマー隠れ状態のスカラー値であり、モデル機能にとって重要なものであることが示されている。
以前の研究では、これらの現象を十分に訓練されたモデルで特徴付けてきたが、訓練中の出現の時間的ダイナミクスは理解されていないままである。
我々はPythiaモデルファミリーをテストベッドとして,トランスフォーマートレーニングを通しての大規模活性化発生の包括的解析を行った。
複数のトレーニングチェックポイントにまたがる様々なモデルサイズを体系的に解析することにより,5つの重要なパラメータを持つ指数変調対数関数を用いて正確にモデル化できる予測可能な数学的パターンに従って,大規模なアクティベーションの出現を示す。
アーキテクチャ仕様だけでこれらの数学的パラメータを予測する機械学習フレームワークを開発し、定常動作の精度と出現タイミングと大きさの適度な精度を実現する。
これらの発見により、アーキテクトは、モデル安定性、トレーニングサイクルの長さ、解釈可能性、最適化など、設計選択による大規模なアクティベーションの出現の重要な側面を予測し、潜在的に制御することができる。
以上の結果から,大規模なアクティベーションの出現はモデル設計によって制御され,トレーニング開始前に予測され,潜在的に制御される可能性が示唆された。
関連論文リスト
- In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - DCIts -- Deep Convolutional Interpreter for time series [0.0]
このモデルは、最小限の時間枠内で必要なすべてのインタラクションをキャプチャする最適なウィンドウサイズを確実に決定できるように設計されている。
これは、高次項を組み込む際の複雑性のバランスをとるため、最適なモデルの順序を効果的に識別する。
これらの進歩は、力学系のモデリングと理解に重要な意味を持ち、モデルが応用および計算物理学者にとって貴重なツールとなる。
論文 参考訳(メタデータ) (2025-01-08T08:21:58Z) - Learning Elementary Cellular Automata with Transformers [3.7013865226473848]
本研究では,トランスフォーマーが基本セルオートマタを規定するルールを抽象化し,一般化することができることを示す。
我々の分析は、将来の状態や規則予測をトレーニング損失に含めることで、モデルがルールの内部表現を形成する能力を高めることを明らかにした。
論文 参考訳(メタデータ) (2024-12-02T11:57:49Z) - Self-Supervised Learning with Generative Adversarial Networks for Electron Microscopy [0.0]
本稿では,自己教師付き事前学習が,下流タスクの高精度な微調整をいかに促進するかを示す。
我々は、電子顕微鏡の文脈において、下流の様々なタスクにまたがる自己教師型事前学習の汎用性を実証する。
論文 参考訳(メタデータ) (2024-02-28T12:25:01Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。
既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。
我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-29T07:15:57Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate
Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。
本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。
提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文 参考訳(メタデータ) (2022-06-07T13:51:35Z) - End-to-End Learning of Hybrid Inverse Dynamics Models for Precise and
Compliant Impedance Control [16.88250694156719]
剛体力学モデルの物理的に一貫した慣性パラメータを同定できる新しいハイブリッドモデルの定式化を提案する。
7自由度マニピュレータ上での最先端の逆動力学モデルに対する我々のアプローチを比較した。
論文 参考訳(メタデータ) (2022-05-27T07:39:28Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。