論文の概要: Multi-Dimensional Pruning: Joint Channel, Layer and Block Pruning with Latency Constraint
- arxiv url: http://arxiv.org/abs/2406.12079v1
- Date: Mon, 17 Jun 2024 20:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 23:47:35.911568
- Title: Multi-Dimensional Pruning: Joint Channel, Layer and Block Pruning with Latency Constraint
- Title(参考訳): 多次元プルーニング:レイテンシ制約による結合チャネル, 層, ブロックプルーニング
- Authors: Xinglong Sun, Barath Lakshmanan, Maying Shen, Shiyi Lan, Jingde Chen, Jose Alvarez,
- Abstract要約: 既存のプルーニング手法はチャネルプルーニングに限られており、アグレッシブパラメータ削減に苦慮している。
チャネル, 層, ブロック間のプルーニングを協調的に最適化する新しい多次元プルーニングフレームワークを提案する。
3次元物体検出において,StreamPETRを45%のプルーニング比で刈り上げ,FPS (37.3 vs. 31.7) とmAP (0.451 vs. 0.449) を高密度ベースラインより高めることにより,新たな最先端技術を確立する。
- 参考スコア(独自算出の注目度): 7.757464614718271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As we push the boundaries of performance in various vision tasks, the models grow in size correspondingly. To keep up with this growth, we need very aggressive pruning techniques for efficient inference and deployment on edge devices. Existing pruning approaches are limited to channel pruning and struggle with aggressive parameter reductions. In this paper, we propose a novel multi-dimensional pruning framework that jointly optimizes pruning across channels, layers, and blocks while adhering to latency constraints. We develop a latency modeling technique that accurately captures model-wide latency variations during pruning, which is crucial for achieving an optimal latency-accuracy trade-offs at high pruning ratio. We reformulate pruning as a Mixed-Integer Nonlinear Program (MINLP) to efficiently determine the optimal pruned structure with only a single pass. Our extensive results demonstrate substantial improvements over previous methods, particularly at large pruning ratios. In classification, our method significantly outperforms prior art HALP with a Top-1 accuracy of 70.0(v.s. 68.6) and an FPS of 5262 im/s(v.s. 4101 im/s). In 3D object detection, we establish a new state-of-the-art by pruning StreamPETR at a 45% pruning ratio, achieving higher FPS (37.3 vs. 31.7) and mAP (0.451 vs. 0.449) than the dense baseline.
- Abstract(参考訳): 様々な視覚タスクにおける性能の境界を推し進めると、モデルのサイズはそれに応じて大きくなる。
この成長に追従するためには、エッジデバイスへの効率的な推論とデプロイのための非常に積極的なプルーニング技術が必要です。
既存のプルーニング手法はチャネルプルーニングに限られており、アグレッシブパラメータ削減に苦慮している。
本稿では,遅延制約に固執しつつ,チャネル,レイヤ,ブロック間のプルーニングを協調的に最適化する,新しい多次元プルーニングフレームワークを提案する。
我々は,プルーニング中にモデル全体の遅延変動を正確に把握する遅延モデリング手法を開発し,高いプルーニング比で最適な遅延精度トレードオフを実現するために重要である。
混合整数非線形プログラム (MINLP) としてプルーニングを再構成し, 最適プルーニング構造を1パスのみで効率的に決定する。
以上の結果から, 従来手法に比べて, 特に大きな刈り取り率で大幅な改善が見られた。
分類では,Top-1精度が70.0(v.s. 68.6),FPSが5262 im/s(v.s. 4101 im/s)であった。
3Dオブジェクト検出では,StreamPETRを45%のプルーニング比で刈り上げ,FPS(37.3 vs. 31.7)とmAP(0.451 vs. 0.449)を高密度ベースラインより高めることにより,新たな最先端技術を確立する。
関連論文リスト
- DRIVE: Dual Gradient-Based Rapid Iterative Pruning [2.209921757303168]
現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。
学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。
創発に固有のランダム性に対処するために,初期エポックに対する濃密なトレーニングを活用するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。
論文 参考訳(メタデータ) (2024-04-01T20:44:28Z) - FALCON: FLOP-Aware Combinatorial Optimization for Neural Network Pruning [17.60353530072587]
ネットワークプルーニングは、性能を維持しながら、モデルサイズと計算コストを削減するソリューションを提供する。
現在のプルーニング法のほとんどは、非ゼロパラメータの数を減らし、空間性を改善することに重点を置いている。
本稿では,FALCONを提案する。FALCONは,モデル精度(忠実度),FLOP,スペーサ性制約を考慮に入れた,ネットワークプルーニングを最適化した新しいフレームワークである。
論文 参考訳(メタデータ) (2024-03-11T18:40:47Z) - Dynamic Structure Pruning for Compressing CNNs [13.73717878732162]
本研究では, チャネル内プルーニングに最適なプルーニング粒度を特定するため, 動的プルーニングと呼ばれる新しい構造プルーニング法を提案する。
実験結果から, チャネルプルーニングと比較して, 動的構造プルーニングがGPU上での最先端のプルーニング性能, より現実的なアクセラレーションを実現することが示された。
論文 参考訳(メタデータ) (2023-03-17T02:38:53Z) - Advancing Model Pruning via Bi-level Optimization [89.88761425199598]
イテレーティブ・マグニチュード・プルーニング(IMP)は,「入賞券」の発見に成功するプルーニング法である
ワンショットプルーニング法が開発されているが、これらのスキームは通常IMPほど勝利のチケットを見つけることができない。
提案手法は,双線形問題構造を持つBLO問題の特別なクラスであることを示す。
論文 参考訳(メタデータ) (2022-10-08T19:19:29Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [63.35887911506264]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Hessian-Aware Pruning and Optimal Neural Implant [74.3282611517773]
プルーニングは、ニューラルネットワークモデルに関連するメモリフットプリントとフラップを減らす効果的な方法である。
構造的プルーニングの指標として2次感度を用いたニューラルインプラントアプローチと組み合わされた新しいヘッセン認識プルーニング法を提案する。
論文 参考訳(メタデータ) (2021-01-22T04:08:03Z) - Joint Multi-Dimension Pruning via Numerical Gradient Update [120.59697866489668]
本稿では,空間,深さ,チャネルの3つの重要な側面において,ネットワークを同時に切断する方法であるジョイント・マルチディメンジョン・プルーニング(ジョイント・プルーニング)を提案する。
本手法は,1つのエンドツーエンドトレーニングにおいて3次元にわたって協調的に最適化され,従来よりも効率がよいことを示す。
論文 参考訳(メタデータ) (2020-05-18T17:57:09Z) - Lookahead: A Far-Sighted Alternative of Magnitude-based Pruning [83.99191569112682]
マグニチュードベースのプルーニングは、ニューラルネットワークをプルーニングする最も単純な方法の1つである。
我々は,単一層最適化を多層最適化に拡張することにより,単純なプルーニング法であるルックアヘッドプルーニングを開発した。
実験の結果,提案手法は様々なネットワーク上での大規模プルーニングよりも一貫して優れていた。
論文 参考訳(メタデータ) (2020-02-12T05:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。