論文の概要: Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory
- arxiv url: http://arxiv.org/abs/2602.22345v1
- Date: Wed, 25 Feb 2026 19:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.382664
- Title: Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory
- Title(参考訳): 大規模言語モデルの構造と冗長性:ランダム行列理論によるスペクトル研究
- Authors: Davide Ettori,
- Abstract要約: この論文は、現代のディープラーニング、信頼性、効率性において、永続的で密接に関連する2つの課題に対処する。
層と入力間の隠れアクティベーションの固有値ダイナミクスを解析することにより、スペクトル統計学がモデル挙動にコンパクトで安定で解釈可能なレンズを提供することを示す。
このフレームワーク内では、最初のコントリビューションであるEigenTrackが、大規模言語と視覚言語モデルにおける幻覚とアウト・オブ・ディストリビューションの振る舞いをリアルタイムに検出する手法を導入した。
第二の貢献である RMT-KD は、ランダム行列理論知識蒸留によるディープネットワークの圧縮に対する原則的なアプローチを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis addresses two persistent and closely related challenges in modern deep learning, reliability and efficiency, through a unified framework grounded in Spectral Geometry and Random Matrix Theory (RMT). As deep networks and large language models continue to scale, their internal behavior becomes increasingly opaque, leading to hallucinations, fragile generalization under distribution shift, and growing computational and energy demands. By analyzing the eigenvalue dynamics of hidden activations across layers and inputs, this work shows that spectral statistics provide a compact, stable, and interpretable lens on model behavior, capable of separating structured, causal representations from noise-dominated variability. Within this framework, the first contribution, EigenTrack, introduces a real-time method for detecting hallucinations and out-of-distribution behavior in large language and vision-language models. EigenTrack transforms streaming activations into spectral descriptors such as entropy, variance, and deviations from the Marchenko-Pastur baseline, and models their temporal evolution using lightweight recurrent classifiers, enabling early detection of reliability failures before they appear in model outputs while offering interpretable insight into representation dynamics. The second contribution, RMT-KD, presents a principled approach to compressing deep networks via random matrix theoretic knowledge distillation. By interpreting outlier eigenvalues in activation spectra as carriers of task-relevant information, RMT-KD progressively projects networks onto lower-dimensional subspaces through iterative self-distillation, yielding significantly more compact and energy-efficient models while preserving accuracy and dense, hardware-friendly structure.
- Abstract(参考訳): この論文は、スペクトル幾何学とランダム行列理論(RMT)に基づく統一的なフレームワークを通じて、現代のディープラーニング、信頼性、効率において、永続的で密接に関連する2つの課題に対処する。
深層ネットワークや大規模言語モデルが拡大を続けるにつれ、その内部の振る舞いはますます不透明になり、幻覚、分布シフトによる脆弱な一般化、計算とエネルギー需要の増加につながる。
層間および入力間の隠れアクティベーションの固有値ダイナミクスを解析することにより、スペクトル統計学がモデル行動にコンパクトで安定で解釈可能なレンズを提供し、ノイズに支配された可変性から構造的、因果的表現を分離できることを示す。
このフレームワーク内では、最初のコントリビューションであるEigenTrackが、大規模言語と視覚言語モデルにおける幻覚とアウト・オブ・ディストリビューションの振る舞いをリアルタイムに検出する手法を導入した。
EigenTrackはストリーミングのアクティベーションを、マーチンコ-パストゥルベースラインからのエントロピー、分散、偏差などのスペクトル記述子に変換し、その時間的進化を軽量なリカレント分類器を使ってモデル化し、モデル出力に現れる前に信頼性障害を早期に検出し、表現力学の解釈可能な洞察を提供する。
第二の貢献である RMT-KD は、ランダム行列理論知識蒸留によるディープネットワークの圧縮に対する原則的なアプローチを示す。
タスク関連情報のキャリアとしてアクティベーションスペクトルの外れ値の固有値を解釈することにより、RTT-KDは反復自己蒸留により低次元の部分空間へのネットワークを段階的にプロジェクションし、精度とハードウェアフレンドリーな構造を保ちながら、よりコンパクトでエネルギー効率の良いモデルを得る。
関連論文リスト
- Spectral Geometry for Deep Learning: Compression and Hallucination Detection via Random Matrix Theory [0.0]
この論文は、両問題に対処するためにスペクトル幾何学とランダム行列理論に基づく統一的な枠組みを提案する。
最初のコントリビューションであるEigenTrackは、言語および視覚言語モデルにおける幻覚とアウト・オブ・ディストリビューションの振る舞いをリアルタイムに検出する手法である。
第2のコントリビューションであるRTT-KDは、情報的スペクトル成分を識別する原理的圧縮法である。
論文 参考訳(メタデータ) (2026-01-24T08:07:22Z) - A PID-Controlled Tensor Wheel Decomposition Model for Dynamic Link Prediction [3.525733859925913]
本研究では, PID制御型テンソルホイール分解(PTWD)モデルについて述べる。
提案するPTWDモデルは,他のモデルと比較して高精度なリンク予測機能を有する。
論文 参考訳(メタデータ) (2025-05-20T11:14:30Z) - Multi-Head Self-Attending Neural Tucker Factorization [5.734615417239977]
本稿では,高次元および不完全(HDI)テンソルの学習表現に適したニューラルネットワークに基づくテンソル分解手法を提案する。
提案したMSNTucFモデルでは,観測結果の欠落を推定する上で,最先端のベンチマークモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-16T13:04:15Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Deep Neural Dynamic Bayesian Networks applied to EEG sleep spindles
modeling [0.0]
本稿では,視覚的スコアリングにおいて専門家が積極的に実施する制約を組み込んだ単一チャネル脳波生成モデルを提案する。
我々は、一般化期待最大化の特別な場合として、正確に、抽出可能な推論のためのアルゴリズムを導出する。
我々は、このモデルを3つの公開データセット上で検証し、より複雑なモデルが最先端の検出器を越えられるように支援する。
論文 参考訳(メタデータ) (2020-10-16T21:48:29Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。