論文の概要: Residual Koopman Spectral Profiling for Predicting and Preventing Transformer Training Instability
- arxiv url: http://arxiv.org/abs/2602.22988v1
- Date: Thu, 26 Feb 2026 13:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.703325
- Title: Residual Koopman Spectral Profiling for Predicting and Preventing Transformer Training Instability
- Title(参考訳): 変圧器トレーニング不安定の予測・防止のための残留クープマンスペクトルプロファイリング
- Authors: Bum Jun Kim, Shohei Taniguchi, Makoto Kawano, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: トランスフォーマーのトレーニングのばらつきは計算を無駄にするが、実践者は高価なランニングの開始後にのみ不安定を発見する。
我々はRKSP(Residual Koopman Spectral Profiling)について検討した。
我々の中心的な診断は、近単位スペクトル質量であり、単位円の近くに集中したモードの分画を定量化し、不安定なリスクを捉えます。
- 参考スコア(独自算出の注目度): 40.24077350481118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training divergence in transformers wastes compute, yet practitioners discover instability only after expensive runs begin. They therefore need an expected probability of failure for a transformer before training starts. Our study of Residual Koopman Spectral Profiling (RKSP) provides such an estimate. From a single forward pass at initialization, RKSP extracts Koopman spectral features by applying whitened dynamic mode decomposition to layer-wise residual snapshots. Our central diagnostic, the near-unit spectral mass, quantifies the fraction of modes concentrated near the unit circle, which captures instability risk. For predicting divergence across extensive configurations, this estimator achieves an AUROC of 0.995, outperforming the best gradient baseline. We further make this diagnostic actionable through Koopman Spectral Shaping (KSS), which reshapes spectra during training. We empirically validate that our method works in practice: RKSP predicts divergence at initialization, and when RKSP flags high risk, turning on KSS successfully prevents divergence. In the challenging high learning rate regime without normalization layers, KSS reduces the divergence rate from 66.7% to 12.5% and enables learning rates that are 50% to 150% higher. These findings generalize to WikiText-103 language modeling, vision transformers on CIFAR-10, and pretrained language models, including GPT-2 and LLaMA-2 up to 7B, as well as emerging architectures such as MoE, Mamba-style SSMs, and KAN.
- Abstract(参考訳): トランスフォーマーのトレーニングのばらつきは計算を無駄にするが、実践者は高価なランニングの開始後にのみ不安定を発見する。
そのため、トレーニングを開始する前にトランスフォーマーが失敗する確率が期待できる。
我々はRKSP(Residual Koopman Spectral Profiling)について検討した。
初期化時の1つのフォワードパスから、RKSPはレイヤーワイド残差スナップショットにホワイト付き動的モード分解を適用することで、クープマンスペクトル特徴を抽出する。
我々の中心的な診断は、近単位スペクトル質量であり、単位円の近くに集中したモードの分画を定量化し、不安定なリスクを捉えます。
広範な構成のばらつきを予測するため、この推定器は 0.995 の AUROC を達成し、最高の勾配ベースラインを上回っている。
さらに、この診断は、トレーニング中にスペクトルを再現するKoopman Spectral Shaping (KSS) を通じて可能となる。
RKSPは初期化時の発散を予測し、RKSPが高いリスクを負うとKSSをオンにすると発散が防止される。
正規化レイヤーのない挑戦的な高等教育体制では、KSSは拡散率を66.7%から12.5%に下げ、50%から150%高い学習率を可能にしている。
これらの結果は、WikiText-103言語モデリング、CIFAR-10上の視覚変換器、GPT-2やLLaMA-2を含む事前訓練言語モデル、MoE、MambaスタイルのSSM、Kanといった新しいアーキテクチャに一般化されている。
関連論文リスト
- BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Activation-Space Uncertainty Quantification for Pretrained Networks [2.001149416674759]
本稿では,ベイズモデリングをウェイトからアクティベーションにシフトさせるポストホック法であるガウス過程活性化(GAPA)を紹介する。
GAPAは標準的な非線形性を、後部平均が元のアクティベーションと正確に一致するアクティベーションに置き換え、構築によるバックボーンのポイント予測を保存する。
現代のアーキテクチャにスケールするために、キャッシュされたトレーニングアクティベーションに対するスパース変分誘導点近似と、ローカルk-アレスト近傍条件の組み合わせを用いる。
論文 参考訳(メタデータ) (2026-02-16T17:17:08Z) - Denoising and Baseline Correction of Low-Scan FTIR Spectra: A Benchmark of Deep Learning Models Against Traditional Signal Processing [0.0]
本稿では,物理インフォームドなカスケードUnetを提案する。
このアーキテクチャは、ネットワークにSNIP層を埋め込んだ化学信号からランダムノイズを分離させる。
このアプローチを、標準のシングルUnetと従来のSavitzky-Golay/SNIPワークフローに対してベンチマークしました。
論文 参考訳(メタデータ) (2026-01-28T15:19:02Z) - Controllable Probabilistic Forecasting with Stochastic Decomposition Layers [1.3995263206621]
本稿では、決定論的機械学習気象モデルをアンサンブルシステムに変換するための分解層(SDL)を提案する。
SDLは3つのデコーダスケールでの学習摂動を、潜在駆動変調、画素ごとのノイズ、チャネルスケーリングを通じて適用する。
転送学習を通じてWXFormerに適用する場合、SDLはベースラインモデルをトレーニングするために必要な計算コストの2%未満を必要とする。
論文 参考訳(メタデータ) (2025-12-21T17:10:00Z) - deep-REMAP: Probabilistic Parameterization of Stellar Spectra Using Regularized Multi-Task Learning [0.0]
Deep-REMAPは、観測されたスペクトルから恒星の大気パラメータを予測するために、正規化されたマルチタスクアプローチを利用する新しいディープラーニングフレームワークである。
我々は、PHOENIX合成スペクトルライブラリ上で深層畳み込みニューラルネットワークを訓練し、転送学習を用いて、観測されたFGK準スペクトルの小さなサブセットでモデルを微調整する。
Deep-REMAPは有効温度(T_rmeff$)、表面重力(log rmg$)、金属性([Fe/H])を正確に回復し、例えば約75KのTの精度を達成する。
論文 参考訳(メタデータ) (2025-10-10T13:20:06Z) - CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文 参考訳(メタデータ) (2025-02-25T13:09:34Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Semi-supervised Contrastive Learning with Similarity Co-calibration [72.38187308270135]
SsCL(Semi-supervised Contrastive Learning)と呼ばれる新しいトレーニング戦略を提案する。
ssclは、自己教師付き学習におけるよく知られたコントラスト損失と、半教師付き学習におけるクロスエントロピー損失を組み合わせる。
SsCLはより差別的な表現を生じさせ,ショット学習に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-16T09:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。