Fugu-MT 論文翻訳(概要): PLUM: Improving Inference Efficiency By Leveraging Repetition-Sparsity Trade-Off

論文の概要: PLUM: Improving Inference Efficiency By Leveraging Repetition-Sparsity Trade-Off

arxiv url: http://arxiv.org/abs/2312.01581v2
Date: Tue, 06 May 2025 03:32:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:10.854237
Title: PLUM: Improving Inference Efficiency By Leveraging Repetition-Sparsity Trade-Off
Title（参考訳）: PLUM:反復スパーシティー取引の活用による推論効率の向上
Authors: Sachit Kuhar, Yash Jain, Alexey Tumanov,
Abstract要約: 量子化とスパシティは、ハードウェア・ソフトウェア・インタフェースにおけるテンソル内の繰り返しとスパシティに変換する重要な技術である。本稿では,反復スパーシティートレードオフの概念を導入し,推論時の計算効率を説明する。本稿では、推論システムと量子化を統合し、繰り返しスパーシティトレードオフを利用する統一型協調設計フレームワークPLUMを提案する。
参考スコア（独自算出の注目度）: 2.326200609038491
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Efficient inference of Deep Neural Networks (DNNs) on resource-constrained edge devices is essential. Quantization and sparsity are key techniques that translate to repetition and sparsity within tensors at the hardware-software interface. This paper introduces the concept of repetition-sparsity trade-off that helps explain computational efficiency during inference. We propose PLUM, a unified co-design framework that integrates DNN inference systems and quantization (forward and backward pass) to leverage the repetition-sparsity trade-off to improve inference efficiency. Our results demonstrate that PLUM's quantization method is more accurate than binary quantization with the same number of non-zero weights. Detailed analysis indicates that signed binarization generates a smaller distribution of effectual (non-zero) parameters nested within a larger distribution of total parameters of latent full-precision weights for a DNN block. Finally, the proposed PLUM framework achieves a 26% speedup on real hardware, doubles energy efficiency, and reduces density by 2.8x compared to binary methods while retaining top-1 accuracy when compared to prior-art methods for ResNets on ImageNet (by achieving 66.2% top-1 accuracy), presenting an alternative solution for deploying efficient models in resource-limited environments.
Abstract（参考訳）: 資源制約エッジデバイス上でのディープニューラルネットワーク(DNN)の効率的な推論が不可欠である。量子化とスパシティは、ハードウェア・ソフトウェア・インタフェースにおけるテンソル内の繰り返しとスパシティに変換する重要な技術である。本稿では,反復スパーシティートレードオフの概念を導入し,推論時の計算効率を説明する。 DNN推論システムと量子化(前方・後方パス)を統合した統合協調設計フレームワークPLUMを提案する。その結果,PLUMの量子化法は,非ゼロウェイト数と同じ数の2値量子化法よりも精度が高いことがわかった。詳細な分析により、署名された二項化は、DNNブロックの潜在完全精度重みの総パラメータの分布のより大きい範囲にネストされた効果(非ゼロ)パラメータのより小さな分布を生成することが示された。最後に、提案したPLUMフレームワークは、実際のハードウェア上で26%のスピードアップを実現し、エネルギー効率を2.8倍に向上し、イメージネット上のResNetの先行技術(66.2%のTop-1精度)と比較して、2進法と比較して密度を2.8倍に下げる。

関連論文リスト

PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。 PT$2$-LLMを提案する。その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文参考訳（メタデータ） (2025-09-27T03:01:48Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Post-Training Quantization for Re-parameterization via Coarse & Fine Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文参考訳（メタデータ） (2023-12-17T02:31:20Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文参考訳（メタデータ） (2023-01-26T17:17:16Z)
Signed Binary Weight Networks [17.07866119979333]
2つの重要なアルゴリズム技術は、効率の良い推論を可能にすることを約束している。本稿では,さらに効率を向上させるために,署名バイナリネットワークと呼ばれる新しい手法を提案する。提案手法は,イメージネットとCIFAR10データセットの2進法で同等の精度を達成し,69%の空間性を実現する。
論文参考訳（メタデータ） (2022-11-25T00:19:21Z)
BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文参考訳（メタデータ） (2022-11-13T18:31:45Z)
AdaBin: Improving Binary Neural Networks with Adaptive Binary Sets [27.022212653067367]
本稿では,重みとアクティベーションを共に1ビット値に分割したBNN(Binary Neural Networks)について検討する。最適二元集合を適応的に得るために、AdaBin と呼ばれる単純で効果的なアプローチを提案する。ベンチマークモデルとデータセットの実験結果は、提案されたAdaBinが最先端のパフォーマンスを達成可能であることを示している。
論文参考訳（メタデータ） (2022-08-17T05:43:33Z)
Green, Quantized Federated Learning over Wireless Networks: An Energy-Efficient Design [68.86220939532373]
有限精度レベルは、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。提案するFLフレームワークは,ベースラインFLアルゴリズムと比較して,収束までのエネルギー消費量を最大70%削減することができる。
論文参考訳（メタデータ） (2022-07-19T16:37:24Z)
Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文参考訳（メタデータ） (2022-07-15T14:34:22Z)
Bimodal Distributed Binarized Neural Networks [3.0778860202909657]
しかし、バイナリ化技術は、完全精度のものと比べれば、不適格な性能劣化に悩まされる。バイモーダル分散バイナライゼーション法(メソッド名)を提案する。これにより、ネットワーク重みのバイモーダルな分布がクルトーシス正規化によって引き起こされる。
論文参考訳（メタデータ） (2022-04-05T06:07:05Z)
BiFSMN: Binary Neural Network for Keyword Spotting [47.46397208920726]
BiFSMNは、KWSのための正確かつ極効率のバイナリニューラルネットワークである。実世界のエッジハードウェアにおいて,BiFSMNは22.3倍の高速化と15.5倍のストレージ節約を実現可能であることを示す。
論文参考訳（メタデータ） (2022-02-14T05:16:53Z)
Distribution-sensitive Information Retention for Accurate Binary Neural Network [49.971345958676196]
本稿では、前向きのアクティベーションと後向きの勾配の情報を保持するために、新しいDIR-Net(Distribution-sensitive Information Retention Network)を提案する。我々のDIR-Netは、主流かつコンパクトなアーキテクチャの下で、SOTAバイナライゼーションアプローチよりも一貫して優れています。我々は、実世界のリソース制限されたデバイス上でDIR-Netを行い、ストレージの11.1倍の節約と5.4倍のスピードアップを実現した。
論文参考訳（メタデータ） (2021-09-25T10:59:39Z)
Exact Backpropagation in Binary Weighted Networks with Group Weight Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文参考訳（メタデータ） (2021-07-03T10:29:34Z)
Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文参考訳（メタデータ） (2020-11-29T03:53:49Z)
BiPointNet: Binary Neural Network for Point Clouds [73.07852523426224]
BiPointNetは、ポイントクラウド上の効率的なディープラーニングのための最初のモデルバイナライズアプローチである。 BiPointNetは、実世界のリソース制約のあるデバイスで14.7倍のスピードアップと18.9倍のストレージを提供する。
論文参考訳（メタデータ） (2020-10-12T07:54:51Z)
High-Capacity Expert Binary Networks [56.87581500474093]
ネットワークバイナライゼーションは、効率的なディープモデルを作成するための、ハードウェア対応の有望な方向性である。メモリと計算上の優位性にもかかわらず、バイナリモデルとその実数値モデルの間の精度のギャップを縮めることは、未解決の課題である。本稿では,入力特徴に基づく時間に1つのデータ固有のエキスパートバイナリフィルタを選択することを学習することで,初めてバイナリネットワークに条件付きコンピューティングを適合させる専門家バイナリ畳み込みを提案する。
論文参考訳（メタデータ） (2020-10-07T17:58:10Z)
QuantNet: Learning to Quantize by Learning within Fully Differentiable Framework [32.465949985191635]
本稿では,QuantNetというメタベースの量子化器を提案する。本手法は, 勾配ミスマッチの問題を解決するだけでなく, 配置中の二項化操作による離散化誤差の影響を低減する。
論文参考訳（メタデータ） (2020-09-10T01:41:05Z)
WrapNet: Neural Net Inference with Ultra-Low-Resolution Arithmetic [57.07483440807549]
ニューラルネットワークをアキュムレータの低分解能(8ビット)加算に適応させ,32ビットのアキュムレータに匹敵する分類精度を実現する手法を提案する。ソフトウェアプラットフォームとハードウェアプラットフォームの両方において、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-07-26T23:18:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。