論文の概要: Towards Universal & Efficient Model Compression via Exponential Torque Pruning
- arxiv url: http://arxiv.org/abs/2506.22015v1
- Date: Fri, 27 Jun 2025 08:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.137349
- Title: Towards Universal & Efficient Model Compression via Exponential Torque Pruning
- Title(参考訳): 指数トルクプルーニングによる普遍的・効率的なモデル圧縮に向けて
- Authors: Sarthak Ketanbhai Modi, Lim Zi Pong, Shourya Kuchhal, Yoshi Cao, Yupeng Cheng, Teo Yon Shin, Lin Shang-Wei, Zhiming Li,
- Abstract要約: 本稿では,正規化に指数的力の適用方式を採用するETP(Exponential Torque Pruning)を提案する。
ETPは、従来の最先端のプルーニング戦略よりも、無視できる精度の低下で大幅に高い圧縮率を達成することができる。
- 参考スコア(独自算出の注目度): 1.2196109054410231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth in complexity and size of modern deep neural networks (DNNs) has increased challenges related to computational costs and memory usage, spurring a growing interest in efficient model compression techniques. Previous state-of-the-art approach proposes using a Torque-inspired regularization which forces the weights of neural modules around a selected pivot point. Whereas, we observe that the pruning effect of this approach is far from perfect, as the post-trained network is still dense and also suffers from high accuracy drop. In this work, we attribute such ineffectiveness to the default linear force application scheme, which imposes inappropriate force on neural module of different distances. To efficiently prune the redundant and distant modules while retaining those that are close and necessary for effective inference, in this work, we propose Exponential Torque Pruning (ETP), which adopts an exponential force application scheme for regularization. Experimental results on a broad range of domains demonstrate that, though being extremely simple, ETP manages to achieve significantly higher compression rate than the previous state-of-the-art pruning strategies with negligible accuracy drop.
- Abstract(参考訳): 現代のディープニューラルネットワーク(DNN)の複雑さとサイズが急速に増加し、計算コストとメモリ使用量に関連する課題が増大し、効率的なモデル圧縮技術への関心が高まった。
従来の最先端アプローチでは、Torqueにインスパイアされた正規化を使用して、選択されたピボットポイントの周りにニューラルネットワークモジュールの重みを強制する。
しかし,訓練後のネットワークはいまだに密度が高く,精度の低下にも悩まされているため,このアプローチの刈り取り効果は完璧には程遠い。
本研究では, 距離の異なるニューラルモジュールに不適切な力を与える, デフォルトの線形力印加方式による非効率性を評価した。
本研究では, 有効推論に必要なモジュールを近接して保持しながら, 余剰モジュールや遠方モジュールを効率的にプルークするために, 指数的力の適用方式を採用した指数的トルクプルーニング(ETP)を提案する。
広範囲にわたる実験結果から,ETPは極めて単純であるにもかかわらず,従来の最先端プルーニング手法に比べて圧縮速度が著しく向上し,精度が低下することが示された。
関連論文リスト
- Adaptive Error-Bounded Hierarchical Matrices for Efficient Neural Network Compression [0.0]
本稿では,物理インフォームドニューラルネットワーク(PINN)に適した動的,エラーバウンドな階層行列 (H-matrix) 圧縮手法を提案する。
提案手法は,ニューラル・タンジェント・カーネル(NTK)の本質的性質を保ちながら,大規模物理モデルにおける計算複雑性とメモリ要求を低減させる。
実験により, この手法は, 高精度を維持し, 一般化能力を向上させることにより, Singular Value Decomposition (SVD) やプルーニング, 量子化などの従来の圧縮手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-09-11T05:55:51Z) - Towards Meta-Pruning via Optimal Transport [64.6060250923073]
本稿では, フラニングパラダイムに挑戦する「イントラフュージョン」という新しいアプローチを提案する。
モデル融合と最適輸送の概念を利用して、より効果的なスパースモデル表現に到達する。
CIFAR-10, CIFAR-100, ImageNetなどの一般的なデータセット上で, 各種ネットワークのベンチマークを行った。
論文 参考訳(メタデータ) (2024-02-12T17:50:56Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - Accelerating Scalable Graph Neural Network Inference with Node-Adaptive
Propagation [80.227864832092]
グラフニューラルネットワーク(GNN)は、様々なアプリケーションで例外的な効果を発揮している。
大規模グラフの重大化は,GNNによるリアルタイム推論において重要な課題となる。
本稿では,オンライン伝搬フレームワークと2つの新しいノード適応伝搬手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T05:03:00Z) - Pruning Deep Neural Networks from a Sparsity Perspective [34.22967841734504]
プルーニングは、しばしば、同等のテスト性能を維持しながら、ディープネットワークの冗長な重み、ニューロン、または層を落とすことで達成される。
深層ニューラルネットワークの圧縮可能性を測定するためにPQインデックス(PQI)を提案し,これをスペーサ性インフォームド・アダプティブ・プルーニング(SAP)アルゴリズムの開発に利用する。
論文 参考訳(メタデータ) (2023-02-11T04:52:20Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。