論文の概要: Pre-Quantized Deep Learning Models Codified in ONNX to Enable
Hardware/Software Co-Design
- arxiv url: http://arxiv.org/abs/2110.01730v1
- Date: Mon, 4 Oct 2021 22:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:00:23.174220
- Title: Pre-Quantized Deep Learning Models Codified in ONNX to Enable
Hardware/Software Co-Design
- Title(参考訳): ONNXで符号化されたハードウェア/ソフトウェア共同設計が可能な事前量子化ディープラーニングモデル
- Authors: Ulf Hanebutte, Andrew Baldwin, Senad Durakovic, Igor Filipovich,
Chien-Chun (Joe) Chou, Damian Adamowicz, Derek Chickles, and David Hawkes
- Abstract要約: 本稿では,量子化過程をハードウェア固有のモデルコンパイル段階から分離する手法を提案する。
ハードウェア固有の操作を伝達し、ハードウェア/ソフトウェアの共同設計を可能にするONNXモデルにキー量子化を組み込む手法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a methodology to separate the quantization process from
the hardware-specific model compilation stage via a pre-quantized deep learning
model description in standard ONNX format. Separating the quantization process
from the model compilation stage enables independent development. The
methodology is expressive to convey hardware-specific operations and to embed
key quantization parameters into a ONNX model which enables hardware/software
co-design. Detailed examples are given for both MLP and CNN based networks,
which can be extended to other networks in a straightforward fashion.
- Abstract(参考訳): 本稿では,ハードウェア固有のモデルコンパイル段階から,標準NNXフォーマットでの事前量子化深層学習モデル記述を通じて量子化過程を分離する手法を提案する。
量子化プロセスをモデルコンパイル段階から分離することで、独立した開発が可能になる。
この手法は、ハードウェア固有の操作を伝達し、ハードウェア/ソフトウェアの共同設計を可能にするONNXモデルにキー量子化パラメータを埋め込む。
詳細な例は、mlpとcnnベースのネットワークの両方に与えられ、単純な方法で他のネットワークに拡張することができる。
関連論文リスト
- Adaptive quantization with mixed-precision based on low-cost proxy [8.527626602939105]
本稿では,Low-Cost Proxy-Based Adaptive Mixed-Precision Model Quantization (LCPAQ) と呼ばれる新しいモデル量子化法を提案する。
ハードウェア対応モジュールはハードウェアの制約を考慮して設計され、適応型混合精度量子化モジュールは量子化感度を評価するために開発された。
ImageNetの実験では、提案したLCPAQが既存の混合精度モデルに匹敵するあるいは優れた量子化精度を達成している。
論文 参考訳(メタデータ) (2024-02-27T17:36:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - A Study of Quantisation-aware Training on Time Series Transformer Models
for Resource-constrained FPGAs [19.835810073852244]
本研究では,時系列トランスフォーマーモデルにおける量子化対応トレーニング(QAT)について検討する。
そこで本研究では,QAT相における対称スキームと非対称スキームを動的に選択する適応量子化手法を提案する。
論文 参考訳(メタデータ) (2023-10-04T08:25:03Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - QONNX: Representing Arbitrary-Precision Quantized Neural Networks [49.10245225120615]
我々は、任意の精度の量子化ニューラルネットワークを表現するために、Open Neural Network Exchange (ONNX) 中間表現フォーマットを拡張した。
まず、整数クリッピングを利用して、既存のONNXベースの量子化フォーマットで低精度量子化をサポートする。
次に、量子化ONNX(QONNX)と呼ばれる新しい高レベルのONNXフォーマットを導入し、3つの新しい演算子(Quant、BipolarQuant、Trunc)を導入する。
論文 参考訳(メタデータ) (2022-06-15T13:18:00Z) - MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。
線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文 参考訳(メタデータ) (2020-09-16T04:24:18Z) - Compiling ONNX Neural Network Models Using MLIR [51.903932262028235]
本稿では,深層ニューラルネットワークモデルの推論のためのコードを生成するonnx-mlirコンパイラについて予備報告を行う。
Onnx-mlirは、最近LLVMプロジェクトに統合されたMulti-Level Intermediate Representation (MLIR)インフラストラクチャに依存している。
論文 参考訳(メタデータ) (2020-08-19T05:28:08Z) - Obtaining Faithful Interpretations from Compositional Neural Networks [72.41100663462191]
NLVR2およびDROPデータセット上でNMNの中間出力を評価する。
中間出力は期待出力と異なり,ネットワーク構造がモデル動作の忠実な説明を提供していないことを示す。
論文 参考訳(メタデータ) (2020-05-02T06:50:35Z) - Robust Quantization: One Model to Rule Them All [13.87610199914036]
本稿では,広範囲な量子化プロセスに対して,モデルに固有のロバスト性を提供する手法を提案する。
提案手法は理論的議論に動機付けられ,様々なビット幅と量子化ポリシで動作可能な単一汎用モデルを格納することができる。
論文 参考訳(メタデータ) (2020-02-18T16:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。