論文の概要: From Density Matrices to Phase Transitions in Deep Learning: Spectral Early Warnings and Interpretability
- arxiv url: http://arxiv.org/abs/2603.29805v2
- Date: Wed, 01 Apr 2026 10:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.632517
- Title: From Density Matrices to Phase Transitions in Deep Learning: Spectral Early Warnings and Interpretability
- Title(参考訳): 深層学習における密度行列から相転移:スペクトル早期警告と解釈可能性
- Authors: Max Hennick, Guillaume Corlouer,
- Abstract要約: このオブジェクトは、トレーニング中に位相遷移を計算的に効率的かつ統一的に観測できることを示す。
興味深いことに、2RDMの上位固有ベクトルは直接解釈可能であり、遷移の性質を研究することは容易である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key problem in the modern study of AI is predicting and understanding emergent capabilities in models during training. Inspired by methods for studying reactions in quantum chemistry, we present the ``2-datapoint reduced density matrix". We show that this object provides a computationally efficient, unified observable of phase transitions during training. By tracking the eigenvalue statistics of the 2RDM over a sliding window, we derive two complementary signals: the spectral heat capacity, which we prove provides early warning of second-order phase transitions via critical slowing down, and the participation ratio, which reveals the dimensionality of the underlying reorganization. Remarkably, the top eigenvectors of the 2RDM are directly interpretable making it straightforward to study the nature of the transitions. We validate across four distinct settings: deep linear networks, induction head formation, grokking, and emergent misalignment. We then discuss directions for future work using the 2RDM.
- Abstract(参考訳): 現代のAI研究における重要な問題は、トレーニング中のモデルの創発的能力の予測と理解である。
量子化学における反応の研究法に触発されて、我々は ``2-datapoint reduce density matrix" を示す。
このオブジェクトは、トレーニング中に位相遷移を計算的に効率的かつ統一的に観測できることを示す。
2RDMの固有値統計をスライドウインドウ上で追跡することにより、2次相転移の早期警告を提供するスペクトル熱容量と、基礎となる再編成の寸法を明らかにする参加比の2つの相補的な信号を得る。
興味深いことに、2RDMの上位固有ベクトルは直接解釈可能であり、遷移の性質を研究することは容易である。
我々は, 深い線形ネットワーク, 誘導頭部形成, グラッキング, 創発的不整合の4つの異なる設定にまたがって検証を行った。
次に,2RDMを用いた今後の作業の方向性について論じる。
関連論文リスト
- Phase Transitions between Accuracy Regimes in L2 regularized Deep Neural Networks [0.0]
ディープニューラルネットワーク(DNN)のL2正規化が増加すると、第1次位相遷移がアンダーパラメトリゼーションフェーズに遷移する。
我々は,データの複雑性が増大するにつれて新たな遷移点を予測し,相転移の理論に従って効果の存在を予測する。
論文 参考訳(メタデータ) (2025-05-10T11:02:30Z) - How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。
我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文 参考訳(メタデータ) (2025-05-02T00:07:35Z) - A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。
我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文 参考訳(メタデータ) (2025-01-30T13:04:54Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Cascade of phase transitions in the training of Energy-based models [9.945465034701288]
原型エネルギーベース生成モデルBernoulli-Bernoulli RBMの特徴符号化過程について検討した。
本研究は、その特異値分解によるモデルの重み行列の進化をトラックする。
我々はBernoulli-Bernoulli RBMを実データ集合上でトレーニングすることで理論的結果を検証する。
論文 参考訳(メタデータ) (2024-05-23T15:25:56Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。