Fugu-MT 論文翻訳(概要): LBS: Loss-aware Bit Sharing for Automatic Model Compression

論文の概要: LBS: Loss-aware Bit Sharing for Automatic Model Compression

arxiv url: http://arxiv.org/abs/2101.04935v2
Date: Mon, 15 Feb 2021 12:07:31 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-03 18:31:42.431741
Title: LBS: Loss-aware Bit Sharing for Automatic Model Compression
Title（参考訳）: LBS: 自動圧縮のための損失認識ビット共有
Authors: Jing Liu, Bohan Zhuang, Peng Chen, Yong Guo, Chunhua Shen, Jianfei Cai, Mingkui Tan
Abstract要約: モデル圧縮設定を自動的に検索するロスアウェアビット共有。 CIFAR-100とImageNetの実験は、LCSが有望な性能を維持しながら計算コストを大幅に削減できることを示しています。
参考スコア（独自算出の注目度）: 141.76536598851786
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Low-bitwidth model compression is an effective method to reduce the model size and computational overhead. Existing compression methods rely on some compression configurations (such as pruning rates, and/or bitwidths), which are often determined manually and not optimal. Some attempts have been made to search them automatically, but the optimization process is often very expensive. To alleviate this, we devise a simple yet effective method named Loss-aware Bit Sharing (LBS) to automatically search for optimal model compression configurations. To this end, we propose a novel single-path model to encode all candidate compression configurations, where a high bitwidth quantized value can be decomposed into the sum of the lowest bitwidth quantized value and a series of re-assignment offsets. We then introduce learnable binary gates to encode the choice of bitwidth, including filter-wise 0-bit for filter pruning. By jointly training the binary gates in conjunction with network parameters, the compression configurations of each layer can be automatically determined. Extensive experiments on both CIFAR-100 and ImageNet show that LBS is able to significantly reduce computational cost while preserving promising performance.
Abstract（参考訳）: 低ビット幅モデル圧縮は、モデルサイズと計算オーバーヘッドを減らす効果的な方法である。既存の圧縮方法はいくつかの圧縮構成(プルーニングレートやビット幅など)に依存しており、しばしば手動で決定される。自動で検索する試みもあるが、最適化プロセスは非常に高価であることが多い。これを解決するために,Los-Aware Bit Sharing (LBS) というシンプルな手法を考案し,最適なモデル圧縮構成を自動検索する。そこで本研究では,ビット幅量子化値の高い値を,最小ビット幅量子化値と一連の再割り当てオフセットの合計に分解可能な,全ての候補圧縮構成を符号化する新しい単一パスモデルを提案する。次に、学習可能なバイナリゲートを導入してビット幅の選択を符号化し、フィルタプルーニングのためのフィルタワイズ0ビットを含む。ネットワークパラメータとともにバイナリゲートを共同でトレーニングすることにより、各レイヤの圧縮構成を自動的に決定することができる。 CIFAR-100とImageNetの広範な実験により、LBSは有望な性能を維持しながら計算コストを大幅に削減できることが示された。

関連論文リスト

Reducing Storage of Pretrained Neural Networks by Rate-Constrained Quantization and Entropy Coding [56.066799081747845]
成長を続けるニューラルネットワークのサイズは、リソースに制約のあるデバイスに深刻な課題をもたらす。本稿では,レートアウェア量子化とエントロピー符号化を組み合わせた学習後圧縮フレームワークを提案する。この方法では非常に高速な復号化が可能であり、任意の量子化グリッドと互換性がある。
論文参考訳（メタデータ） (2025-05-24T15:52:49Z)
Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。 LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文参考訳（メタデータ） (2025-02-03T13:30:29Z)
Neural Network Compression using Binarization and Few Full-Precision Weights [7.206962876422061]
自動Prune Binarization (APB) は量子化とプルーニングを組み合わせた新しい圧縮技術である。 APBは、数個の完全精度重みを使ってバイナリネットワークの表現能力を向上する。 APBは最先端の方法よりも精度とメモリのトレードオフが優れている。
論文参考訳（メタデータ） (2023-06-15T08:52:00Z)
Towards Hardware-Specific Automatic Compression of Neural Networks [0.0]
プルーニングと量子化がニューラルネットワークを圧縮する主要なアプローチです効率的な圧縮ポリシーは、特定のハードウェアアーキテクチャが使用する圧縮方法に与える影響を考慮する。本稿では,プレニングと量子化を利用した強化学習を用いて,Galenと呼ばれるアルゴリズムフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-15T13:34:02Z)
CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。 CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。 CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文参考訳（メタデータ） (2022-07-28T16:13:28Z)
OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。 OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文参考訳（メタデータ） (2022-05-23T09:05:25Z)
An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文参考訳（メタデータ） (2021-08-19T07:03:22Z)
Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。 52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文参考訳（メタデータ） (2021-05-24T12:07:38Z)
Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文参考訳（メタデータ） (2021-03-10T03:59:03Z)
Automated Model Compression by Jointly Applied Pruning and Quantization [14.824593320721407]
従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を行うことで、モデルのサイズと計算コストを削減できる。ネットワークプルーニングと量子化を統一的な共同圧縮問題として統合し,AutoMLを用いて自動的に解き出すことで,この問題に対処する。共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。
論文参考訳（メタデータ） (2020-11-12T07:06:29Z)
Differentiable Joint Pruning and Quantization for Hardware Efficiency [16.11027058505213]
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。 DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
論文参考訳（メタデータ） (2020-07-20T20:45:47Z)
A "Network Pruning Network" Approach to Deep Model Compression [62.68120664998911]
マルチタスクネットワークを用いた深部モデル圧縮のためのフィルタプルーニング手法を提案する。我々のアプローチは、プレナーネットワークを学習して、事前訓練されたターゲットネットワークを訓練することに基づいている。提案手法によって生成された圧縮モデルは汎用的であり,特別なハードウェア/ソフトウェアのサポートは不要である。
論文参考訳（メタデータ） (2020-01-15T20:38:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。