論文の概要: Spectral Lens: Activation and Gradient Spectra as Diagnostics of LLM Optimization
- arxiv url: http://arxiv.org/abs/2605.05683v1
- Date: Thu, 07 May 2026 05:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.526992
- Title: Spectral Lens: Activation and Gradient Spectra as Diagnostics of LLM Optimization
- Title(参考訳): 分光レンズ:LCM最適化の診断における活性化と勾配スペクトル
- Authors: Andy Zeyi Liu, Elliot Paquette, John Sous,
- Abstract要約: トレーニングの損失とスループットは、言語モデルトレーニングにおいて異なる内部表現を隠蔽する可能性がある。
我々は、スペクトル測定を実用的および運用上の診断に用いている。
この二重ビューでは、3つの経験的発見と1つの機械的説明が示される。
- 参考スコア(独自算出の注目度): 7.052272974286418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training loss and throughput can hide distinct internal representation in language-model training. To examine these hidden mechanics, we use spectral measurements as practical and operational diagnostics. Using a controlled family of decoder-only models adapted from the modded NanoGPT codebase, we introduce an empirical protocol based on activation covariance and per-sample gradient SVD spectra. This dual-view reveals three empirical findings and one mechanistic explanation. First, batch size acts as a latent determinant of representation geometry: runs that reach equal loss settle into systematically distinct activation spectra. Second, the activation covariance tail measured early in training reliably forecasts downstream token efficiency. Third, movement of the activation spectrum head (leading modes), together with gradient spectra, characterizes underlying learning-dynamics changes, separating learning-side architectural improvements from primarily execution-side gains. These predictive and diagnostic signals persist across the 12-, 36-, and 48-layer model tiers. Finally, a mechanistic model proves the main observations and explains how activation covariance spectra correlate with task-aligned feature learning.
- Abstract(参考訳): トレーニングの損失とスループットは、言語モデルトレーニングにおいて異なる内部表現を隠蔽する可能性がある。
これらの隠れ力学を調べるために、スペクトル測定を実用的および運用上の診断に利用した。
修正されたNanoGPTコードベースから適応したデコーダのみのモデル群を用いて、アクティベーション共分散とサンプルごとの勾配SVDスペクトルに基づく経験的プロトコルを導入する。
この二重ビューでは、3つの経験的発見と1つの機械的説明が示される。
第一に、バッチサイズは表現幾何学の潜在決定因子として機能し、同じ損失に達するランは、体系的に異なるアクティベーションスペクトルに落ち着く。
第2に、早期に測定された活性化共分散テールは、下流のトークン効率を確実に予測する。
第3に、アクティベーションスペクトルヘッド(リードモード)の運動と勾配スペクトルは、基礎となる学習力学の変化を特徴付け、学習側アーキテクチャの改善を主に実行側ゲインから分離する。
これらの予測および診断信号は、12層、36層、48層のモデル層にわたって持続する。
最後に、メカニスティックモデルが主な観測値を示し、アクティベーション共分散スペクトルがタスク整列型特徴学習とどのように相関するかを説明する。
関連論文リスト
- Low-Cost Black-Box Detection of LLM Hallucinations via Dynamical System Prediction [3.6209977238182276]
LLM(Large Language Models)は、幻覚(幻覚)として知られる、可塑性だが非実効的な内容を生成する現象である。
我々は,LCMをブラックボックス力学系として扱う新しい手法を提案する。
本手法は,資源のオーバーヘッドを低減し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-05-06T17:07:29Z) - Implicit Neural Representations: A Signal Processing Perspective [54.57279006229212]
入射神経表現(INR)は、離散的なサンプルデータから連続的な機能的表現へと、信号モデリングの根本的な変化を示す。
本稿では、信号処理の観点からのINRの進化を考察し、スペクトル挙動、サンプリング理論、マルチスケール表現を強調する。
医療・レーダ画像の逆問題,圧縮,3次元シーン表現など,幅広い応用分野におけるINRの有用性を強調した。
論文 参考訳(メタデータ) (2026-04-16T14:12:06Z) - Spectral Geometry for Deep Learning: Compression and Hallucination Detection via Random Matrix Theory [0.0]
この論文は、両問題に対処するためにスペクトル幾何学とランダム行列理論に基づく統一的な枠組みを提案する。
最初のコントリビューションであるEigenTrackは、言語および視覚言語モデルにおける幻覚とアウト・オブ・ディストリビューションの振る舞いをリアルタイムに検出する手法である。
第2のコントリビューションであるRTT-KDは、情報的スペクトル成分を識別する原理的圧縮法である。
論文 参考訳(メタデータ) (2026-01-24T08:07:22Z) - CAST: Compositional Analysis via Spectral Tracking for Understanding Transformer Layer Functions [9.941868776410148]
CAST(Compositional Analysis via Spectral Tracking)は、トランスフォーマー層関数を解析することによって、新しい視点に寄与するプローブフリーフレームワークである。
解析の結果,エンコーダのみのモデルとデコーダのみのモデルでは,デコーダモデルは圧縮・膨張サイクルを示し,エンコーダモデルは一貫したハイランク処理を維持していることがわかった。
論文 参考訳(メタデータ) (2025-10-16T03:27:15Z) - Spectral-Adaptive Modulation Networks for Visual Perception [9.912286808419205]
グラフスペクトル分析を用いて、2次元畳み込みと自己意図の周波数応答を理論的にシミュレートし比較する。
以上の結果から,ウィンドウサイズによって変調されたノード接続が,スペクトル関数形成の鍵となる要因であることが判明した。
SPAMに基づいて,新しいビジョンバックボーンとしてSPANetV2を開発した。
論文 参考訳(メタデータ) (2025-03-31T10:53:42Z) - Spatial-Spectral Diffusion Contrastive Representation Network for Hyperspectral Image Classification [8.600534616819333]
本稿では,空間スペクトル拡散コントラスト表現ネットワーク(DiffCRN)を提案する。
DiffCRNは、高スペクトル画像分類のための拡散確率モデル(DDPM)とコントラスト学習(CL)の組み合わせに基づく。
広く使われている4つのHSIデータセットを用いて実験を行い、提案したDiffCRNの性能改善を実証した。
論文 参考訳(メタデータ) (2025-02-27T02:34:23Z) - Holistic Physics Solver: Learning PDEs in a Unified Spectral-Physical Space [54.13671100638092]
Holistic Physics Mixer (HPM) は、スペクトルと物理情報を統一された空間に統合するためのフレームワークである。
我々はHPMが精度と計算効率の両面で最先端の手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-10-15T08:19:39Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。
我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文 参考訳(メタデータ) (2023-09-14T00:40:07Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet
Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。
スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。
主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文 参考訳(メタデータ) (2022-01-07T22:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。