論文の概要: Theoretical Guarantees for Low-Rank Compression of Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2502.02766v1
- Date: Tue, 04 Feb 2025 23:10:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:26:32.416582
- Title: Theoretical Guarantees for Low-Rank Compression of Deep Neural Networks
- Title(参考訳): 深部ニューラルネットワークの低域圧縮に関する理論的保証
- Authors: Shihao Zhang, Rayan Saab,
- Abstract要約: ディープニューラルネットワークは多くのアプリケーションで最先端のパフォーマンスを実現している。
低ランク近似技術は、これらのネットワークのサイズと複雑さを減らし、有望な解決策を提供する。
我々は、データ駆動の低ランク圧縮のための分析フレームワークを開発した。
- 参考スコア(独自算出の注目度): 5.582683296425384
- License:
- Abstract: Deep neural networks have achieved state-of-the-art performance across numerous applications, but their high memory and computational demands present significant challenges, particularly in resource-constrained environments. Model compression techniques, such as low-rank approximation, offer a promising solution by reducing the size and complexity of these networks while only minimally sacrificing accuracy. In this paper, we develop an analytical framework for data-driven post-training low-rank compression. We prove three recovery theorems under progressively weaker assumptions about the approximate low-rank structure of activations, modeling deviations via noise. Our results represent a step toward explaining why data-driven low-rank compression methods outperform data-agnostic approaches and towards theoretically grounded compression algorithms that reduce inference costs while maintaining performance.
- Abstract(参考訳): ディープニューラルネットワークは多くのアプリケーションにまたがって最先端のパフォーマンスを達成したが、その高いメモリと計算要求は、特にリソースに制約のある環境において重大な課題を呈している。
低ランク近似のようなモデル圧縮技術は、これらのネットワークのサイズと複雑さを最小限に抑えながら、有望な解決策を提供する。
本稿では,データ駆動型ポストトレーニング低ランク圧縮のための解析フレームワークを開発する。
我々は、アクティベーションの近似的低ランク構造について、徐々に弱い仮定の下で3つのリカバリ定理を証明し、ノイズによる偏差をモデル化する。
本研究は,データ駆動型低ランク圧縮手法がデータに依存しない手法より優れている理由と,性能を維持しながら推論コストを低減できる理論的基盤圧縮アルゴリズムについて述べる。
関連論文リスト
- Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning [15.78336840511033]
本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。
本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。
我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
論文 参考訳(メタデータ) (2024-08-25T09:30:34Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Towards Optimal Compression: Joint Pruning and Quantization [1.191194620421783]
本稿では,FITCompressについて紹介する。FITCompressは層単位での混合精度の量子化と非構造化プルーニングを組み合わせた新しい手法である。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法が優れた圧縮性能のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2023-02-15T12:02:30Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Neural Network Compression Via Sparse Optimization [23.184290795230897]
スパース最適化の最近の進歩に基づくモデル圧縮フレームワークを提案する。
我々は、CIFAR10のVGG16とImageNetのResNet50で、同じレベルの精度で、最大7.2倍と2.9倍のFLOPを削減できる。
論文 参考訳(メタデータ) (2020-11-10T03:03:55Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。