論文の概要: Reliable Model Compression via Label-Preservation-Aware Loss Functions
- arxiv url: http://arxiv.org/abs/2012.01604v1
- Date: Thu, 3 Dec 2020 00:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 15:16:09.255251
- Title: Reliable Model Compression via Label-Preservation-Aware Loss Functions
- Title(参考訳): ラベル保存型損失関数による信頼性モデル圧縮
- Authors: Vinu Joseph, Shoaib Ahmed Siddiqui, Aditya Bhaskara, Ganesh
Gopalakrishnan, Saurav Muralidharan, Michael Garland, Sheraz Ahmed, Andreas
Dengel
- Abstract要約: 本稿では,教師の学習パラダイムを用いてラベルの保存を改善するフレームワークを提案する。
圧縮モデルと参照モデルとのミスマッチ数を最大4.1倍に削減する。
- 参考スコア(独自算出の注目度): 14.368823297066276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model compression is a ubiquitous tool that brings the power of modern deep
learning to edge devices with power and latency constraints. The goal of model
compression is to take a large reference neural network and output a smaller
and less expensive compressed network that is functionally equivalent to the
reference. Compression typically involves pruning and/or quantization, followed
by re-training to maintain the reference accuracy. However, it has been
observed that compression can lead to a considerable mismatch in the labels
produced by the reference and the compressed models, resulting in bias and
unreliability. To combat this, we present a framework that uses a
teacher-student learning paradigm to better preserve labels. We investigate the
role of additional terms to the loss function and show how to automatically
tune the associated parameters. We demonstrate the effectiveness of our
approach both quantitatively and qualitatively on multiple compression schemes
and accuracy recovery algorithms using a set of 8 different real-world network
architectures. We obtain a significant reduction of up to 4.1X in the number of
mismatches between the compressed and reference models, and up to 5.7X in cases
where the reference model makes the correct prediction.
- Abstract(参考訳): モデル圧縮は、パワーとレイテンシの制約のあるエッジデバイスに現代のディープラーニングのパワーをもたらす、ユビキタスなツールである。
モデル圧縮の目標は、大きな参照ニューラルネットワークを取り込み、その参照と機能的に等価な小型で安価な圧縮ネットワークを出力することである。
圧縮は通常、プルーニングと/または量子化を伴い、続いて参照精度を維持するために再トレーニングを行う。
しかし、圧縮は参照と圧縮モデルによって生成されるラベルにかなりのミスマッチをもたらし、バイアスと信頼性の低下をもたらすことが観察されている。
これに対抗するために,教師の学習パラダイムを用いてラベルをよりよく保存するフレームワークを提案する。
損失関数に対する追加項の役割を調査し,関連するパラメータを自動的にチューニングする方法を示す。
8種類の実世界のネットワークアーキテクチャを用いて,複数の圧縮スキームと精度回復アルゴリズムに対して定量的かつ定性的にアプローチの有効性を示す。
圧縮モデルと参照モデルとのミスマッチ数の最大4.1倍、参照モデルが正しい予測を行う場合の最大5.7倍の大幅な削減が得られる。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Inshrinkerator: Compressing Deep Learning Training Checkpoints via Dynamic Quantization [5.648270790530862]
最先端のアプローチには、結果のモデル品質(精度)と圧縮比とのトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。
モデル重みの圧縮に対する感度がトレーニング中に変化し、異なる重みが異なる量子化レベルから恩恵を受けることを重要視する。
本稿では,この変動を利用した非一様量子化手法,最適な量子化構成を動的に見つける効率的な探索機構,重みを再構成してチェックポイント差を最小限に抑える量子化対応デルタ圧縮機構を提案する。
論文 参考訳(メタデータ) (2023-06-20T18:00:31Z) - A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Optimal Rate Adaption in Federated Learning with Compressed
Communications [28.16239232265479]
フェデレートラーニングは高い通信オーバーヘッドを引き起こし、モデル更新の圧縮によって大幅に軽減される。
ネットワーク環境における 圧縮とモデルの精度のトレードオフは 未だ不明です
各繰り返しの圧縮を戦略的に調整することで最終モデルの精度を最大化する枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-13T14:26:15Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Accordion: Adaptive Gradient Communication via Critical Learning Regime
Identification [12.517161466778655]
分散モデルトレーニングは、計算ノードにまたがる頻繁なモデル更新による通信ボトルネックに悩まされる。
これらのボトルネックを軽減するために、実践者はスパーシフィケーションや量子化、低ランク更新といった勾配圧縮技術を使用する。
本研究では,高圧縮比の選択による性能劣化が基本的でないことを示す。
適応圧縮戦略は、最終テスト精度を維持しながら通信を低減することができる。
論文 参考訳(メタデータ) (2020-10-29T16:41:44Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。