論文の概要: Convex Distillation: Efficient Compression of Deep Networks via Convex Optimization
- arxiv url: http://arxiv.org/abs/2410.06567v1
- Date: Wed, 9 Oct 2024 06:04:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:49:21.988534
- Title: Convex Distillation: Efficient Compression of Deep Networks via Convex Optimization
- Title(参考訳): 凸蒸留:凸最適化によるディープネットワークの効率的な圧縮
- Authors: Prateek Varshney, Mert Pilanci,
- Abstract要約: リソース制約のあるデバイスに大規模で複雑な凸ネットワークを配置することは、その要求のために大きな課題となった。
本稿では,本モデルを用いてモデルを効率よく圧縮する新しい蒸留技術を紹介する。
当社のアプローチでは,後処理を必要とせずに,オリジナルモデルに匹敵するパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 46.18363767705346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large and complex deep neural networks on resource-constrained edge devices poses significant challenges due to their computational demands and the complexities of non-convex optimization. Traditional compression methods such as distillation and pruning often retain non-convexity that complicates fine-tuning in real-time on such devices. Moreover, these methods often necessitate extensive end-to-end network fine-tuning after compression to preserve model performance, which is not only time-consuming but also requires fully annotated datasets, thus potentially negating the benefits of efficient network compression. In this paper, we introduce a novel distillation technique that efficiently compresses the model via convex optimization -- eliminating intermediate non-convex activation functions and using only intermediate activations from the original model. Our approach enables distillation in a label-free data setting and achieves performance comparable to the original model without requiring any post-compression fine-tuning. We demonstrate the effectiveness of our method for image classification models on multiple standard datasets, and further show that in the data limited regime, our method can outperform standard non-convex distillation approaches. Our method promises significant advantages for deploying high-efficiency, low-footprint models on edge devices, making it a practical choice for real-world applications. We show that convex neural networks, when provided with rich feature representations from a large pre-trained non-convex model, can achieve performance comparable to their non-convex counterparts, opening up avenues for future research at the intersection of convex optimization and deep learning.
- Abstract(参考訳): リソース制約のあるエッジデバイスに大規模で複雑なディープニューラルネットワークをデプロイすることは、計算要求と非凸最適化の複雑さのために、大きな課題となる。
蒸留やプルーニングのような伝統的な圧縮法は、そのような装置上での微調整をリアルタイムで複雑にする非凸性を保持することが多い。
さらに、これらの手法は、モデル性能を維持するために圧縮後の広範囲なエンドツーエンドネットワークの微調整を必要とすることが多く、これは時間を要するだけでなく、完全に注釈付きデータセットを必要とするため、効率的なネットワーク圧縮の利点を否定する可能性がある。
本稿では, 中間非凸活性化関数を排除し, 元のモデルからの中間活性化のみを用いる, 凸最適化によりモデルを効率よく圧縮する新しい蒸留手法を提案する。
提案手法は, ラベルフリーなデータ環境での蒸留を可能にし, 圧縮後微調整を必要とせず, 元のモデルに匹敵する性能を実現する。
我々は,複数の標準データセットを用いた画像分類モデルの有効性を実証し,また,データ限定方式では,標準の非凸蒸留手法よりも優れていることを示す。
本手法は,エッジデバイスに高効率で低フットプリントのモデルをデプロイする上で,優れた利点を期待できる。
我々は,大規模な非凸モデルからリッチな特徴表現を備えた凸ニューラルネットワークが,その非凸モデルに匹敵する性能を達成できることを示し,凸最適化と深層学習の交差点における将来の研究への道を開いた。
関連論文リスト
- Forget the Data and Fine-Tuning! Just Fold the Network to Compress [13.611551223875194]
構造的に類似したニューロンを層にマージする新しいデータフリーモデル圧縮技術であるモデルフォールディングを導入する。
モデル折り畳みはデータ駆動圧縮技術に匹敵する性能を示し,最近提案したデータフリー手法よりも優れていた。
このアプローチは大規模モデルを圧縮するのに特に有効であり、資源制約された環境への展開に適している。
論文 参考訳(メタデータ) (2025-02-14T15:10:43Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。
エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。
特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Generative Dataset Distillation Based on Self-knowledge Distillation [49.20086587208214]
本稿では,予測ロジットの整列精度を向上させる新しい生成データセット蒸留法を提案する。
本手法は, 合成データと原データとのより正確な分布マッチングを実現するために, 自己知識蒸留を統合したものである。
提案手法は, 既存の最先端手法より優れており, 蒸留性能が良好である。
論文 参考訳(メタデータ) (2025-01-08T00:43:31Z) - Efficient Dataset Distillation via Diffusion-Driven Patch Selection for Improved Generalization [34.79567392368196]
本稿では, 既存の拡散式蒸留法に対する新しい枠組みを提案し, 生成ではなく拡散モデルを用いて選択する。
提案手法は,入力画像とテキストプロンプトに基づいて拡散モデルから発生するノイズを予測し,各ペアの損失を算出する。
この合理化フレームワークは単一段階の蒸留プロセスを実現するとともに,我々の手法が様々なメトリクスにわたって最先端の手法より優れていることを示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-12-13T08:34:46Z) - The Convex Landscape of Neural Networks: Characterizing Global Optima
and Stationary Points via Lasso Models [75.33431791218302]
ディープニューラルネットワーク(DNN)モデルは、プログラミング目的に使用される。
本稿では,凸型神経回復モデルについて検討する。
定常的非次元目的物はすべて,グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
また, 静止非次元目的物はすべて, グローバルサブサンプリング型凸解法プログラムとして特徴付けられることを示す。
論文 参考訳(メタデータ) (2023-12-19T23:04:56Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。