論文の概要: PIPE : Parallelized Inference Through Post-Training Quantization
Ensembling of Residual Expansions
- arxiv url: http://arxiv.org/abs/2311.15806v1
- Date: Mon, 27 Nov 2023 13:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:20:40.092983
- Title: PIPE : Parallelized Inference Through Post-Training Quantization
Ensembling of Residual Expansions
- Title(参考訳): 管 : 残留膨張の逐次量子化による並列化推定
- Authors: Edouard Yvinec, Arnaud Dapogny, Kevin Bailly
- Abstract要約: PIPEは、残差誤差展開とグループ間隔とアンサンブル近似を利用して、より良い並列化を実現する量子化法である。
すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー、ビット幅)において、優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 23.1120983784623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are ubiquitous in computer vision and natural
language processing, but suffer from high inference cost. This problem can be
addressed by quantization, which consists in converting floating point
perations into a lower bit-width format. With the growing concerns on privacy
rights, we focus our efforts on data-free methods. However, such techniques
suffer from their lack of adaptability to the target devices, as a hardware
typically only support specific bit widths. Thus, to adapt to a variety of
devices, a quantization method shall be flexible enough to find good accuracy
v.s. speed trade-offs for every bit width and target device. To achieve this,
we propose PIPE, a quantization method that leverages residual error expansion,
along with group sparsity and an ensemble approximation for better
parallelization. PIPE is backed off by strong theoretical guarantees and
achieves superior performance on every benchmarked application (from vision to
NLP tasks), architecture (ConvNets, transformers) and bit-width (from int8 to
ternary quantization).
- Abstract(参考訳): ディープニューラルネットワーク(DNN)はコンピュータビジョンや自然言語処理においてユビキタスであるが、推論コストが高い。
この問題は、浮動小数点ペレーションを低ビット幅フォーマットに変換する量子化によって解決できる。
プライバシーの権利に関する懸念が高まる中、私たちはデータフリーの手法に取り組みます。
しかしながら、そのような技術はターゲットデバイスへの適応性の欠如に悩まされ、ハードウェアは通常特定のビット幅しかサポートしていない。
したがって、様々なデバイスに適応するために、量子化法は、各ビット幅とターゲットデバイスに対する速度トレードオフに対して適切な精度を求めるのに十分柔軟である。
これを実現するために,残差誤差展開を利用する量子化法であるPIPEとグループ間隔とアンサンブル近似を用いて並列化を改善する。
PIPEは強力な理論的保証によって支持され、すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー)、ビット幅(int8から3次量子化まで)において優れたパフォーマンスを達成する。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Efficient and Mathematically Robust Operations for Certified Neural
Networks Inference [3.666326242924816]
マシンラーニング(ML)とニューラルネットワーク(NN)の認定に関する懸念が高まっている。
本稿では,IEEE 754浮動小数点演算に関わる課題を取り上げ,推論段階と必要なハードウェアについて述べる。
様々な和と点積のアルゴリズムを評価することにより、非連想性に関する問題を緩和することを目指している。
論文 参考訳(メタデータ) (2024-01-16T09:22:38Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Scaled Quantization for the Vision Transformer [0.0]
少数のビットを使用した量子化は、ディープニューラルネットワークにおけるレイテンシとメモリ使用量の削減を約束している。
本稿では、中間浮動小数点演算を必要とせずに、視覚変換器ネットワークの完全整数量子化のためのロバストな手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T18:31:21Z) - REx: Data-Free Residual Quantization Error Expansion [32.87131159997359]
ディープニューラルネットワーク(DNN)はコンピュータビジョンや自然言語処理においてユビキタスであるが、高い推論コストに悩まされている。
プライバシの権利に関する懸念が高まる中、私たちはデータフリーな方法に注力しています。
本稿では,残差展開とグループ間隔,アンサンブル近似を併用した並列化手法RExを提案する。
論文 参考訳(メタデータ) (2022-03-28T11:04:45Z) - Bitwidth Heterogeneous Federated Learning with Progressive Weight
Dequantization [58.31288475660333]
ビット幅の不均一なフェデレート学習(BHFL)を用いた実用的フェデレーション学習シナリオを提案する。
BHFLは、異なるビット幅のモデルパラメータの集約が深刻な性能劣化をもたらすという、新しい課題をもたらす。
本稿では,低ビット幅の重みをより高ビット幅の重みに段階的に再構成し,最終的に完全精度の重みに再構成する,トレーニング可能な重み決定器を中央サーバに備えたProWDフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-23T12:07:02Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。