論文の概要: MDP: Multidimensional Vision Model Pruning with Latency Constraint
- arxiv url: http://arxiv.org/abs/2504.02168v1
- Date: Wed, 02 Apr 2025 23:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:58:24.291436
- Title: MDP: Multidimensional Vision Model Pruning with Latency Constraint
- Title(参考訳): MDP:遅延制約による多次元視覚モデルプルーニング
- Authors: Xinglong Sun, Barath Lakshmanan, Maying Shen, Shiyi Lan, Jingde Chen, Jose M. Alvarez,
- Abstract要約: 多次元プルーニング(MDP)は,様々なプルーニング粒度を協調的に最適化する新しいパラダイムである。
大規模な実験により、MDPは特に高い刈り取り率で従来の方法よりも大幅に優れていたことが示されている。
- 参考スコア(独自算出の注目度): 17.256693658926405
- License:
- Abstract: Current structural pruning methods face two significant limitations: (i) they often limit pruning to finer-grained levels like channels, making aggressive parameter reduction challenging, and (ii) they focus heavily on parameter and FLOP reduction, with existing latency-aware methods frequently relying on simplistic, suboptimal linear models that fail to generalize well to transformers, where multiple interacting dimensions impact latency. In this paper, we address both limitations by introducing Multi-Dimensional Pruning (MDP), a novel paradigm that jointly optimizes across a variety of pruning granularities-including channels, query, key, heads, embeddings, and blocks. MDP employs an advanced latency modeling technique to accurately capture latency variations across all prunable dimensions, achieving an optimal balance between latency and accuracy. By reformulating pruning as a Mixed-Integer Nonlinear Program (MINLP), MDP efficiently identifies the optimal pruned structure across all prunable dimensions while respecting latency constraints. This versatile framework supports both CNNs and transformers. Extensive experiments demonstrate that MDP significantly outperforms previous methods, especially at high pruning ratios. On ImageNet, MDP achieves a 28% speed increase with a +1.4 Top-1 accuracy improvement over prior work like HALP for ResNet50 pruning. Against the latest transformer pruning method, Isomorphic, MDP delivers an additional 37% acceleration with a +0.7 Top-1 accuracy improvement.
- Abstract(参考訳): 現在の構造破砕法は2つの重要な限界に直面している。
(i)プルーニングをチャンネルのような細粒度レベルに制限し、攻撃的なパラメータ還元を困難にし、
(II)パラメータとFLOPの削減に重点を置いており、既存の遅延認識手法は、複数の相互作用次元が遅延に影響を及ぼすトランスフォーマーにうまく一般化できない、単純で最適な線形モデルに依存していることが多い。
本稿では,多次元プルーニング(MDP, Multi-dimensional Pruning)という,チャネル,クエリ,キー,ヘッド,埋め込み,ブロックなど,様々なプルーニング粒度を協調的に最適化する新しいパラダイムを導入することにより,両方の制約に対処する。
MDPは、全ての実行可能次元にわたるレイテンシの変動を正確に捉え、レイテンシと精度の最適なバランスを達成するために、高度なレイテンシモデリング技術を採用している。
MDPは、混合整数非線形プログラム(MINLP)としてプルーニングを再構成することにより、遅延制約を尊重しつつ、全てのプルーニング可能な次元にわたって最適なプルーニング構造を効率的に同定する。
この汎用フレームワークはCNNとトランスフォーマーの両方をサポートしている。
大規模な実験により、MDPは特に高い刈り取り率で従来の方法よりも大幅に優れていたことが示されている。
ImageNetでは、MDPはResNet50プルーニングのためのHALPのような以前の作業よりも、+1.4 Top-1精度で28%のスピードアップを実現している。
最新の変圧器プルーニング法に対して、MDPは37%の加速と+0.7のTop-1精度向上を実現している。
関連論文リスト
- Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference [8.792650582656913]
M2R2(Mixture of Multi-rate Residuals)は,残差速度を動的に変調して早期アライメントを改善するフレームワークである。
M2R2は最先端の距離ベースの戦略を超え、生成品質とスピードアップのバランスをとる。
自己投機的復号化では、M2R2はMT-Benchで最大2.8倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-02-04T06:13:52Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Multi-Dimensional Pruning: Joint Channel, Layer and Block Pruning with Latency Constraint [7.757464614718271]
既存のプルーニング手法はチャネルプルーニングに限られており、アグレッシブパラメータ削減に苦慮している。
チャネル, 層, ブロック間のプルーニングを協調的に最適化する新しい多次元プルーニングフレームワークを提案する。
3次元物体検出において,StreamPETRを45%のプルーニング比で刈り上げ,FPS (37.3 vs. 31.7) とmAP (0.451 vs. 0.449) を高密度ベースラインより高めることにより,新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-06-17T20:40:09Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - DRIVE: Dual Gradient-Based Rapid Iterative Pruning [2.209921757303168]
現代のディープニューラルネットワーク(DNN)は、数百万のパラメータで構成され、トレーニングと推論中にハイパフォーマンスコンピューティングを必要とする。
学習後推論の合理化に焦点をあてた従来の刈り込み手法は, 訓練前の刈り込みによって早期に疎水性を活用する試みが近年行われている。
創発に固有のランダム性に対処するために,初期エポックに対する濃密なトレーニングを活用するDual Gradient-Based Rapid Iterative Pruning (DRIVE)を提案する。
論文 参考訳(メタデータ) (2024-04-01T20:44:28Z) - DPAdapter: Improving Differentially Private Deep Learning through Noise
Tolerance Pre-training [33.935692004427175]
DPAdapterは,パラメータのロバスト性を高め,DPMLアルゴリズムのモデル性能を向上する先駆的手法である。
我々の実験によると、DPAdapterは最先端のDPMLアルゴリズムを大幅に強化し、平均精度は72.92%から77.09%に向上している。
論文 参考訳(メタデータ) (2024-03-05T00:58:34Z) - PDP: Parameter-free Differentiable Pruning is All You Need [9.050217604438458]
そこで本研究では,効率的な列車時プルーニング手法を提案する。
differentiable Pruning (PDP) - モデルのサイズ、精度、トレーニングコストの最先端性を提供する。
微分可能ではあるが、PDPの単純さと効率は、最先端のランダム/構造化/チャネルプルーニング結果を提供するのに十分な普遍性をもたらす。
論文 参考訳(メタデータ) (2023-05-18T16:57:10Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。