論文の概要: RMT-KD: Random Matrix Theoretic Causal Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2509.15724v2
- Date: Fri, 26 Sep 2025 17:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.671382
- Title: RMT-KD: Random Matrix Theoretic Causal Knowledge Distillation
- Title(参考訳): RMT-KD:ランダムマトリックス理論因果知識蒸留
- Authors: Davide Ettori, Nastaran Darabi, Sureshkumar Senthilkumar, Amit Ranjan Trivedi,
- Abstract要約: BERTやResNetといった大規模なディープラーニングモデルは最先端のパフォーマンスを実現するが、エッジでのデプロイにはコストがかかる。
本稿では,Random Matrix Theory (RMT) を用いて知識蒸留を行い,ネットワークサイズを反復的に削減する手法であるRTT-KDを提案する。
GLUE、AG News、CIFAR-10では、RTT-KDは最大80%のパラメータ還元を実現し、2%の精度の損失しか得られず、2.8倍の高速な推論とほぼ半分の消費電力を実現している。
- 参考スコア(独自算出の注目度): 2.888226377065326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large deep learning models such as BERT and ResNet achieve state-of-the-art performance but are costly to deploy at the edge due to their size and compute demands. We present RMT-KD, a compression method that leverages Random Matrix Theory (RMT) for knowledge distillation to iteratively reduce network size. Instead of pruning or heuristic rank selection, RMT-KD preserves only informative directions identified via the spectral properties of hidden representations. RMT-based causal reduction is applied layer by layer with self-distillation to maintain stability and accuracy. On GLUE, AG News, and CIFAR-10, RMT-KD achieves up to 80% parameter reduction with only 2% accuracy loss, delivering 2.8x faster inference and nearly halved power consumption. These results establish RMT-KD as a mathematically grounded approach to network distillation.
- Abstract(参考訳): BERTやResNetのような大規模なディープラーニングモデルは最先端のパフォーマンスを実現するが、そのサイズと計算要求のためにエッジにデプロイするのにコストがかかる。
本稿では,Random Matrix Theory (RMT) を用いて知識蒸留を行い,ネットワークサイズを反復的に削減する圧縮手法であるRTT-KDを提案する。
プルーニングやヒューリスティックなランク選択の代わりに、RTT-KDは隠された表現のスペクトル特性によって識別される情報的方向のみを保持する。
RMTに基づく因果還元は, 安定性と精度を維持するために, 自己蒸留層によって印加される。
GLUE、AG News、CIFAR-10では、RTT-KDは最大80%のパラメータ還元を実現し、2%の精度の損失しか得られず、2.8倍の高速な推論とほぼ半分の消費電力を実現している。
これらの結果は、RTT-KDを数学的に基礎づけたネットワーク蒸留手法として確立する。
関連論文リスト
- Evaluating the Efficiency of Latent Spaces via the Coupling-Matrix [0.5013248430919224]
本稿では,次元間の依存関係を直接定量化する冗長指数rho(C)を導入する。
低rho(C)は高い分類精度または低い再構成誤差を確実に予測する一方、高い冗長性は性能崩壊と関連付けられる。
木構造型Parzen Estimator (TPE) は低ロー領域を優先的に探索し,rho(C) がニューラルアーキテクチャ探索を誘導し,冗長性を考慮した正規化ターゲットとして機能することを示唆する。
論文 参考訳(メタデータ) (2025-09-08T03:36:47Z) - TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning [16.47847349673178]
LLM(Large Language Models)は、その規模が大きいため、計算と記憶に重大な課題がある。
既存のワンショットプルーニング手法は、層間または各層内で均一なスペーサ性制約を適用することが多い。
この研究は、各層内の個々の出力次元(ロウ)に様々な空間比を適用する新しいアプローチを導入している。
論文 参考訳(メタデータ) (2025-05-22T14:53:53Z) - Restoration Score Distillation: From Corrupted Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
Score Distillation (DSD) の原理的一般化である textitRestoration Score Distillation (RSD) を提案する。
RSDは、ぼやけた画像、不完全画像、低解像度画像など、広範囲の汚職タイプに対応している。
自然と科学の両方のデータセットの様々な復元作業において、教師モデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-05-19T17:21:03Z) - Low-Rank Matrix Approximation for Neural Network Compression [0.0]
本稿では,重み行列の圧縮に最適なランクを近似する適応型特異値分解法を提案する。
ARSVDは、その特異値のエントロピー分布を通じて、層ごとのランクの適応的な選択を使用する。
提案手法は, 効率よく, 層圧縮が可能であり, 空間, 時間的複雑さを低減して性能を向上する。
論文 参考訳(メタデータ) (2025-04-25T06:04:01Z) - Enhancing Accuracy in Deep Learning Using Random Matrix Theory [4.00671924018776]
深層ニューラルネットワーク(DNN)のトレーニングにおけるランダム行列理論(RMT)の適用について検討する。
数値計算の結果,DNNとCNNの精度は低下せず,パラメータの大幅な削減につながることが明らかとなった。
この結果から,より効率的かつ正確なディープラーニングモデル構築のためのRTTの実践的応用に関する貴重な知見が得られた。
論文 参考訳(メタデータ) (2023-10-04T21:17:31Z) - Deep Learning Weight Pruning with RMT-SVD: Increasing Accuracy and
Reducing Overfitting [0.0]
ディープニューラルネットワーク(DNN)の重み層のスペクトルをランダム行列理論(RMT)の手法を用いて研究・理解することができる。
本研究では,これらのRTT手法を用いて, DNNの重み付け層から, 特異値分解(SVD)を通して, どれ程の特異値を取り除くべきかを判断する。
MNISTで訓練した単純なDNNモデルについて,その結果を示す。
論文 参考訳(メタデータ) (2023-03-15T23:19:45Z) - EcoTTA: Memory-Efficient Continual Test-time Adaptation via
Self-distilled Regularization [71.70414291057332]
TTAは主にメモリ制限のあるエッジデバイス上で実行される。
長期的な適応は、しばしば破滅的な忘れとエラーの蓄積につながる。
本稿では,凍結したオリジナルネットワークを対象ドメインに適応させる軽量なメタネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:30Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - TRP: Trained Rank Pruning for Efficient Deep Neural Networks [69.06699632822514]
低位近似とトレーニングを交互に行うTrated Rank Pruning (TRP)を提案する。
サブ段階降下により最適化された核正則化を利用して、TRPの低位化をさらに促進する。
TRPトレーニングネットワークは本質的に低ランク構造であり、無視可能な性能損失と近似される。
論文 参考訳(メタデータ) (2020-04-30T03:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。