論文の概要: Towards Universal & Efficient Model Compression via Exponential Torque Pruning
- arxiv url: http://arxiv.org/abs/2506.22015v2
- Date: Wed, 02 Jul 2025 03:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 12:13:55.53442
- Title: Towards Universal & Efficient Model Compression via Exponential Torque Pruning
- Title(参考訳): 指数トルクプルーニングによる普遍的・効率的なモデル圧縮に向けて
- Authors: Sarthak Ketanbhai Modi, Lim Zi Pong, Shourya Kuchhal, Yoshi Cao, Yupeng Cheng, Teo Yon Shin, Lin Shang-Wei, Zhiming Li,
- Abstract要約: 本稿では,正規化に指数的力の適用方式を採用するETP(Exponential Torque Pruning)を提案する。
ETPは、従来の最先端のプルーニング戦略よりも、無視できる精度の低下で大幅に高い圧縮率を達成することができる。
- 参考スコア(独自算出の注目度): 1.2196109054410231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth in complexity and size of modern deep neural networks (DNNs) has increased challenges related to computational costs and memory usage, spurring a growing interest in efficient model compression techniques. Previous state-of-the-art approach proposes using a Torque-inspired regularization which forces the weights of neural modules around a selected pivot point. Whereas, we observe that the pruning effect of this approach is far from perfect, as the post-trained network is still dense and also suffers from high accuracy drop. In this work, we attribute such ineffectiveness to the default linear force application scheme, which imposes inappropriate force on neural module of different distances. To efficiently prune the redundant and distant modules while retaining those that are close and necessary for effective inference, in this work, we propose Exponential Torque Pruning (ETP), which adopts an exponential force application scheme for regularization. Experimental results on a broad range of domains demonstrate that, though being extremely simple, ETP manages to achieve significantly higher compression rate than the previous state-of-the-art pruning strategies with negligible accuracy drop.
- Abstract(参考訳): 現代のディープニューラルネットワーク(DNN)の複雑さとサイズが急速に増加し、計算コストとメモリ使用量に関連する課題が増大し、効率的なモデル圧縮技術への関心が高まった。
従来の最先端アプローチでは、Torqueにインスパイアされた正規化を使用して、選択されたピボットポイントの周りにニューラルネットワークモジュールの重みを強制する。
しかし,訓練後のネットワークはいまだに密度が高く,精度の低下にも悩まされているため,このアプローチの刈り取り効果は完璧には程遠い。
本研究では, 距離の異なるニューラルモジュールに不適切な力を与える, デフォルトの線形力印加方式による非効率性を評価した。
本研究では, 有効推論に必要なモジュールを近接して保持しながら, 余剰モジュールや遠方モジュールを効率的にプルークするために, 指数的力の適用方式を採用した指数的トルクプルーニング(ETP)を提案する。
広範囲にわたる実験結果から,ETPは極めて単純であるにもかかわらず,従来の最先端プルーニング手法に比べて圧縮速度が著しく向上し,精度が低下することが示された。
関連論文リスト
- Causal Context Adjustment Loss for Learned Image Compression [72.7300229848778]
近年,学習画像圧縮(lic)技術は,特にRD性能の点で従来の手法を上回りつつある。
現在の技術のほとんどは、自己回帰エントロピーモデルを備えたVAEベースで、デコードされた因果コンテキストを利用してRD性能を向上する。
本稿では,提案した因果文脈調整損失を用いて因果文脈を的確に調整する方法を初めて検討する。
論文 参考訳(メタデータ) (2024-10-07T09:08:32Z) - Adaptive Error-Bounded Hierarchical Matrices for Efficient Neural Network Compression [0.0]
本稿では,物理インフォームドニューラルネットワーク(PINN)に適した動的,エラーバウンドな階層行列 (H-matrix) 圧縮手法を提案する。
提案手法は,ニューラル・タンジェント・カーネル(NTK)の本質的性質を保ちながら,大規模物理モデルにおける計算複雑性とメモリ要求を低減させる。
実験により, この手法は, 高精度を維持し, 一般化能力を向上させることにより, Singular Value Decomposition (SVD) やプルーニング, 量子化などの従来の圧縮手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-11T05:55:51Z) - Convolutional Neural Network Compression Based on Low-Rank Decomposition [3.3295360710329738]
本稿では,変分ベイズ行列分解を組み込んだモデル圧縮法を提案する。
VBMFは各層における重みテンソルのランクを推定するために用いられる。
その結果, 高圧縮比と低圧縮比では, 圧縮モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-29T06:40:34Z) - Towards Meta-Pruning via Optimal Transport [64.6060250923073]
本稿では, フラニングパラダイムに挑戦する「イントラフュージョン」という新しいアプローチを提案する。
モデル融合と最適輸送の概念を利用して、より効果的なスパースモデル表現に到達する。
CIFAR-10, CIFAR-100, ImageNetなどの一般的なデータセット上で, 各種ネットワークのベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-12T17:50:56Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - Accelerating Scalable Graph Neural Network Inference with Node-Adaptive
Propagation [80.227864832092]
グラフニューラルネットワーク(GNN)は、様々なアプリケーションで例外的な効果を発揮している。
大規模グラフの重大化は,GNNによるリアルタイム推論において重要な課題となる。
本稿では,オンライン伝搬フレームワークと2つの新しいノード適応伝搬手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T05:03:00Z) - Pruning Deep Neural Networks from a Sparsity Perspective [34.22967841734504]
プルーニングは、しばしば、同等のテスト性能を維持しながら、ディープネットワークの冗長な重み、ニューロン、または層を落とすことで達成される。
深層ニューラルネットワークの圧縮可能性を測定するためにPQインデックス(PQI)を提案し,これをスペーサ性インフォームド・アダプティブ・プルーニング(SAP)アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2023-02-11T04:52:20Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Hardening DNNs against Transfer Attacks during Network Compression using
Greedy Adversarial Pruning [0.1529342790344802]
いくつかの不規則なプルーニングスキームと8ビット量子化法により生成されたモデルの対角的ロバスト性について検討する。
このプルーニング法により,非圧縮モデルからの攻撃に対して耐性のあるモデルが得られることが判明した。
論文 参考訳(メタデータ) (2022-06-15T09:13:35Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - A Unified DNN Weight Compression Framework Using Reweighted Optimization
Methods [31.869228048294445]
指定された制約に縛られた動的に更新された正規化項を持つ統合DNN重み決定フレームワークを提案する。
また、異なるDNN圧縮タスクを組み合わせるための統合フレームワークにもメソッドを拡張します。
論文 参考訳(メタデータ) (2020-04-12T02:59:06Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。