論文の概要: An Adaptive Tensor-Train Decomposition Approach for Efficient Deep Neural Network Compression
- arxiv url: http://arxiv.org/abs/2408.01534v1
- Date: Fri, 2 Aug 2024 18:47:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:40:03.157690
- Title: An Adaptive Tensor-Train Decomposition Approach for Efficient Deep Neural Network Compression
- Title(参考訳): 効率的な深部ニューラルネットワーク圧縮のための適応型テンソルトレイン分解法
- Authors: Shiyi Luo, Mingshuo Liu, Pu Sun, Yifeng Yu, Shangping Ren, Yu Bai,
- Abstract要約: 本稿では,効率的なモデル圧縮のための新しい,自動,予算を考慮したランク選択手法を提案する。
レイヤワイズインプリンティング量子化(LWIQ)は、プロキシ分類器を統合することで、ニューラルネットワーク内の各レイヤの意義を定量化する。
CIFAR-10データセットの実験結果から,LWIQのランク検索効率は63.2$%向上した。
- 参考スコア(独自算出の注目度): 7.903970795030493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of model compression, choosing an appropriate rank for tensor decomposition is pivotal for balancing model compression rate and efficiency. However, this selection, whether done manually or through optimization-based automatic methods, often increases computational complexity. Manual rank selection lacks efficiency and scalability, often requiring extensive trial-and-error, while optimization-based automatic methods significantly increase the computational burden. To address this, we introduce a novel, automatic, and budget-aware rank selection method for efficient model compression, which employs Layer-Wise Imprinting Quantitation (LWIQ). LWIQ quantifies each layer's significance within a neural network by integrating a proxy classifier. This classifier assesses the layer's impact on overall model performance, allowing for a more informed adjustment of tensor rank. Furthermore, our approach includes a scaling factor to cater to varying computational budget constraints. This budget awareness eliminates the need for repetitive rank recalculations for different budget scenarios. Experimental results on the CIFAR-10 dataset show that our LWIQ improved by 63.2$\%$ in rank search efficiency, and the accuracy only dropped by 0.86$\%$ with 3.2x less model size on the ResNet-56 model as compared to the state-of-the-art proxy-based automatic tensor rank selection method.
- Abstract(参考訳): モデル圧縮の分野では、モデル圧縮率と効率のバランスをとるために、テンソル分解に適したランクを選択することが重要である。
しかし、この選択は手動でも最適化ベースの自動手法でも、しばしば計算複雑性を増大させる。
手動のランク選択は効率とスケーラビリティに欠けており、しばしば大規模な試行錯誤を必要とするが、最適化ベースの自動手法は計算負担を大幅に増加させる。
そこで我々は,Layer-Wise Imprinting Quantitation (LWIQ) を用いた,効率的なモデル圧縮のための新しい,自動かつ予算を考慮したランク選択手法を提案する。
LWIQは、プロキシ分類器を統合することにより、ニューラルネットワーク内の各レイヤの意義を定量化する。
この分類器は、レイヤーが全体的なモデル性能に与える影響を評価し、テンソルランクのより詳細な調整を可能にする。
さらに,提案手法は,計算予算の制約に適合するスケーリング係数を含む。
この予算意識は、異なる予算シナリオに対する反復的なランク再計算の必要性を排除します。
CIFAR-10データセットによる実験結果から,LWIQのランク検索効率は63.2$\%に向上し,ResNet-56モデルでは3.2倍のモデルサイズで0.86$\%に低下した。
関連論文リスト
- Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Optimized Layerwise Approximation for Efficient Private Inference on Fully Homomorphic Encryption [17.010625600442584]
本研究では、プライバシー保護型ディープニューラルネットワークのための最適化レイヤワイド近似(OLA)フレームワークを提案する。
効率的な近似のために、各アクティベーション関数の実際の入力分布を考慮し、階層的精度を反映する。
その結果、OLA法はResNet-20モデルとResNet-32モデルの推論時間をそれぞれ3.02倍と2.82倍に削減した。
論文 参考訳(メタデータ) (2023-10-16T12:34:47Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。
メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。
2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文 参考訳(メタデータ) (2022-12-05T01:58:45Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。