論文の概要: Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2306.04879v1
- Date: Thu, 8 Jun 2023 02:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 16:42:57.239376
- Title: Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization
- Title(参考訳): 混合精度後の量子化における層間依存によるヘッセンの増大
- Authors: Clemens JS Schaefer, Navid Lambert-Shirzad, Xiaofan Zhang, Chiachen
Chou, Tom Jablin, Jian Li, Elfie Guo, Caitlin Stanton, Siddharth Joshi, Yu
Emma Wang
- Abstract要約: 本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
- 参考スコア(独自算出の注目度): 7.392278887917975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently serving neural network models with low latency is becoming more
challenging due to increasing model complexity and parameter count. Model
quantization offers a solution which simultaneously reduces memory footprint
and compute requirements. However, aggressive quantization may lead to an
unacceptable loss in model accuracy owing to differences in sensitivity to
numerical imperfection across different layers in the model. To address this
challenge, we propose a mixed-precision post training quantization (PTQ)
approach that assigns different numerical precisions to tensors in a network
based on their specific needs, for a reduced memory footprint and improved
latency while preserving model accuracy. Previous works rely on layer-wise
Hessian information to determine numerical precision, but as we demonstrate,
Hessian estimation is typically insufficient in determining an effective
ordering of layer sensitivities. We address this by augmenting the estimated
Hessian with additional information to capture inter-layer dependencies. We
demonstrate that this consistently improves PTQ performance along the
accuracy-latency Pareto frontier across multiple models. Our method combines
second-order information and inter-layer dependencies to guide a bisection
search, finding quantization configurations within a user-configurable model
accuracy degradation range. We evaluate the effectiveness of our method on the
ResNet50, MobileNetV2, and BERT models. Our experiments demonstrate latency
reductions compared to a 16-bit baseline of $25.48\%$, $21.69\%$, and $33.28\%$
respectively, while maintaining model accuracy to within $99.99\%$ of the
baseline model.
- Abstract(参考訳): モデルの複雑さとパラメータ数の増加により、低レイテンシのニューラルネットワークモデルを効率的に提供することが難しくなっている。
モデル量子化は、メモリフットプリントと計算要求を同時に削減するソリューションを提供する。
しかし、攻撃的な量子化はモデル内の異なる層間の数値的不完全さに対する感度の差によって、モデル精度の許容できない損失をもたらす可能性がある。
そこで本研究では,ptq(mixed-precision post training quantization)手法を提案する。モデル精度を維持しつつ,メモリフットプリントの低減とレイテンシ向上を目的として,ネットワーク内のテンソルに異なる数値精度を割り当てる。
これまでの研究は, 層別ヘッシアン情報に依存して数値的精度を判定してきたが, 一般に, ヘッシアン推定は, 層感度の効果的な順序決定には不十分である。
我々は、層間依存関係をキャプチャする追加情報を含む推定ヘッセンを補強することで、この問題に対処する。
複数のモデルにまたがる精度・レイテンシのParetoフロンティアに沿ってPTQ性能を一貫して改善することを示す。
本手法は,2次情報と層間依存性を組み合わせることで,二分探索を誘導し,ユーザ構成可能なモデル精度劣化範囲内で量子化構成を求める。
提案手法の有効性をResNet50, MobileNetV2, BERTモデルで評価した。
実験では16ビットのベースラインである$25.48\%$、$1.69\%$、$3.28\%$と比較してレイテンシの低減を示し、モデル精度はベースラインモデルの$99.99\%$まで維持した。
関連論文リスト
- FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Mixed Precision Post Training Quantization of Neural Networks with
Sensitivity Guided Search [7.392278887917975]
混合精度量子化により、異なるテンソルを様々な数値精度のレベルに量子化することができる。
我々は,コンピュータビジョンと自然言語処理の手法を評価し,最大27.59%,34.31%のレイテンシ低減を実証した。
論文 参考訳(メタデータ) (2023-02-02T19:30:00Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文 参考訳(メタデータ) (2022-07-20T10:55:34Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Investigating the Relationship Between Dropout Regularization and Model
Complexity in Neural Networks [0.0]
ドロップアウト規則化は、ディープラーニングモデルのばらつきを低減するのに役立つ。
2,000のニューラルネットワークをトレーニングすることにより,ドロップアウト率とモデル複雑性の関係について検討する。
各密層に隠されたユニットの数から、最適なドロップアウト率を予測するニューラルネットワークを構築します。
論文 参考訳(メタデータ) (2021-08-14T23:49:33Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Search What You Want: Barrier Panelty NAS for Mixed Precision
Quantization [51.26579110596767]
混合精度量子化のための新しいバリアペナルティベースNAS(BP-NAS)を提案する。
BP-NASは、分類(Cifar-10, ImageNet)と検出(COCO)の両方に基づいて芸術の新たな状態を設定する
論文 参考訳(メタデータ) (2020-07-20T12:00:48Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。