論文の概要: NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks
- arxiv url: http://arxiv.org/abs/2603.06922v1
- Date: Fri, 06 Mar 2026 22:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.404283
- Title: NerVE: Nonlinear Eigenspectrum Dynamics in LLM Feed-Forward Networks
- Title(参考訳): NerVE:LLMフィードフォワードネットワークにおける非線形固有スペクトルダイナミクス
- Authors: Nandan Kumar Jha, Brandon Reagen,
- Abstract要約: フィードフォワードネットワーク(FFN)が高次元潜在空間における情報フローをどのように制御するかを理解するための統一的な赤外フレームワークであるNerVEを紹介する。
NerVEは、4つの相補的なジオメトリによる固有ダイナミクスの軽量でメモリ効率のよい追跡を通じて、このギャップに対処する。
- 参考スコア(独自算出の注目度): 2.8232103900765693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce NerVE, a unified eigenspectral framework for understanding how feed-forward networks (FFNs) in large language models (LLMs) organize and regulate information flow in high-dimensional latent space. Despite FFNs dominating the parameter budget, their high-dimensional dynamics remain poorly understood. NerVE addresses this gap through lightweight, memory-efficient tracking of eigenspectrum dynamics via four complementary metrics: Spectral Entropy (dispersion), Participation Ratio (effective dimensionality), Eigenvalue Early Enrichment (top-heaviness), and Jensen-Shannon divergence (distributional shifts). Our key insight is that FFN nonlinearities reinject variance across eigenmodes, fundamentally governing latent dimension utilization, and that optimizer geometry strongly modulates the extent of this variance reinjection. We validate NerVE across model scales, and diverse architectural and optimizer configurations, each uniquely shaping FFN dynamics: normalization schemes controlling variance flow; FFN weight geometries constraining latent space; positional encoding and activation functions regulating information flow; and optimizer choices redistributing effective capacity across depth. Across these settings, NerVE consistently recovers stable spectral signatures that correlate with model's generalization ability and respond predictably to design choices, generalizing beyond transformer to MLP-Mixer architectures, providing actionable insights for architectural and optimizer choices beyond trial-and-error.
- Abstract(参考訳): NerVEは,大規模言語モデル(LLM)におけるフィードフォワードネットワーク(FFN)が高次元潜在空間における情報フローをどのように整理し,制御するかを理解するための統一固有スペクトルフレームワークである。
FFNがパラメータ予算を支配しているにもかかわらず、その高次元のダイナミクスはいまだに理解されていない。
NerVEはこのギャップを、スペクトルエントロピー(分散)、参加率(有効次元比)、固有値アーリーエンリッチメント(トップヘビーネス)、ジェンセン=シャノン発散(分配シフト)の4つの相補的指標を通して、軽量でメモリ効率のよい固有スペクトルダイナミクスの追跡を通じて解決する。
我々のキーとなる洞察は、FFN非線形性は固有モード間の分散を還元し、基本的に潜在次元の利用を制御し、オプティマイザ幾何はこの分散の再帰の程度を強く調節するということである。
分散フローを制御する正規化スキーム、潜時空間を制約するFFNウェイトジオメトリ、情報フローを規制する位置エンコーディングとアクティベーション機能、深度にわたって有効なキャパシティを再分配するオプティマイザ選択などである。
これらの設定全体にわたって、NerVEは、モデルの一般化能力と相関する安定したスペクトルシグネチャを一貫して回復し、設計選択に予測可能に対応し、トランスフォーマーを越えてMLP-Mixerアーキテクチャに一般化し、試行錯誤以外のアーキテクチャと最適化の選択肢に対して実行可能な洞察を提供する。
関連論文リスト
- Muon with Spectral Guidance: Efficient Optimization for Scientific Machine Learning [10.647088281181222]
SpecMuonは、物理インフォームドラーニングのためのスペクトル対応多モード勾配流である。
これは、ムオンのスケールバランス特性を保ちながら、グローバルな損失エネルギーに応じてステップサイズを規制する。
アダム・アダムWよりも早く収束し、安定性を向上させる。
論文 参考訳(メタデータ) (2026-02-18T03:56:20Z) - Adaptive Dual-Weighting Framework for Federated Learning via Out-of-Distribution Detection [53.45696787935487]
Federated Learning (FL)は、大規模分散サービスノード間の協調的なモデルトレーニングを可能にする。
実世界のサービス指向デプロイメントでは、異種ユーザ、デバイス、アプリケーションシナリオによって生成されたデータは本質的にIIDではない。
FLoodは、オフ・オブ・ディストリビューション(OOD)検出にインスパイアされた新しいFLフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T05:54:59Z) - Online Bayesian Experimental Design for Partially Observed Dynamical Systems [10.774974720491565]
本研究では,部分可観測性を持つ動的システムにおけるデータ収集を最適化するための基本的フレームワークを開発する。
我々のフレームワークは、部分観測可能性とオンライン推論の両方をうまく処理します。
論文 参考訳(メタデータ) (2025-11-06T14:29:05Z) - Balancing Sparse RNNs with Hyperparameterization Benefiting Meta-Learning [0.0]
本稿では、スパースリカレントニューラルネットワーク(RNN)を特定するための代替ハイパーパラメータを提案する。
これらのハイパーパラメータにより、モデルのトレーニング可能な重量行列内での間隔が変化し、全体的なパフォーマンスが向上する。
このアーキテクチャは、モデル内の未知物の分布のバランスを保ち、モデル性能のかなりの説明力を提供する、新しい計量、隠された比例の定義を可能にする。
論文 参考訳(メタデータ) (2025-09-18T15:20:13Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - EqNIO: Subequivariant Neural Inertial Odometry [33.96552018734359]
重力ベクトルの周りで回転すると、IMUデータは等変的に変形し、重力に平行な任意の平面に対して反射することを示す。
そして、IMUデータをこのフレームにマッピングし、既製の慣性オドメトリーネットワークで直接使用できる不変な正準化を実現する。
論文 参考訳(メタデータ) (2024-08-12T17:42:46Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。
我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文 参考訳(メタデータ) (2023-10-04T21:11:40Z) - Implicit Bias of MSE Gradient Optimization in Underparameterized Neural
Networks [0.0]
勾配流による平均二乗誤差の最適化において,関数空間におけるニューラルネットワークのダイナミクスについて検討する。
ニューラルタンジェントカーネル(NTK)により決定された積分作用素$T_Kinfty$の固有関数をネットワークが学習することを示す。
減衰偏差は2乗誤差を最適化する際の力学の単純かつ統一的な視点を与えると結論付けている。
論文 参考訳(メタデータ) (2022-01-12T23:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。