Fugu-MT 論文翻訳(概要): JAQ: Joint Efficient Architecture Design and Low-Bit Quantization with Hardware-Software Co-Exploration

論文の概要: JAQ: Joint Efficient Architecture Design and Low-Bit Quantization with Hardware-Software Co-Exploration

arxiv url: http://arxiv.org/abs/2501.05339v1
Date: Thu, 09 Jan 2025 16:10:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-10 17:34:41.542579
Title: JAQ: Joint Efficient Architecture Design and Low-Bit Quantization with Hardware-Software Co-Exploration
Title（参考訳）: JAQ: ハードウェアとソフトウェアの共同探索によるアーキテクチャ設計と低ビット量子化
Authors: Mingzi Wang, Yuan Meng, Chen Tang, Weixiang Zhang, Yijian Qin, Yang Yao, Yingxin Li, Tongtong Feng, Xin Wang, Xun Guan, Zhi Wang, Wenwu Zhu,
Abstract要約: 本稿では,3つの臨界次元を協調的に最適化するJAQフレームワークを提案する。ソフトウェア側のメモリオーバーヘッド: 低精度の量子化対応トレーニングは、メモリ使用量を大幅に増加させる可能性がある。ハードウェア側での検索時間: ハードウェアパラメータの離散的な性質と、コンパイラ最適化と個々の演算子間の複雑な相互作用は、アクセラレーター検索に時間を要する。
参考スコア（独自算出の注目度）: 38.264287509278866
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The co-design of neural network architectures, quantization precisions, and hardware accelerators offers a promising approach to achieving an optimal balance between performance and efficiency, particularly for model deployment on resource-constrained edge devices. In this work, we propose the JAQ Framework, which jointly optimizes the three critical dimensions. However, effectively automating the design process across the vast search space of those three dimensions poses significant challenges, especially when pursuing extremely low-bit quantization. Specifical, the primary challenges include: (1) Memory overhead in software-side: Low-precision quantization-aware training can lead to significant memory usage due to storing large intermediate features and latent weights for back-propagation, potentially causing memory exhaustion. (2) Search time-consuming in hardware-side: The discrete nature of hardware parameters and the complex interplay between compiler optimizations and individual operators make the accelerator search time-consuming. To address these issues, JAQ mitigates the memory overhead through a channel-wise sparse quantization (CSQ) scheme, selectively applying quantization to the most sensitive components of the model during optimization. Additionally, JAQ designs BatchTile, which employs a hardware generation network to encode all possible tiling modes, thereby speeding up the search for the optimal compiler mapping strategy. Extensive experiments demonstrate the effectiveness of JAQ, achieving approximately 7% higher Top-1 accuracy on ImageNet compared to previous methods and reducing the hardware search time per iteration to 0.15 seconds.
Abstract（参考訳）: ニューラルネットワークアーキテクチャ、量子化精度、ハードウェアアクセラレータの共設計は、特にリソース制約のあるエッジデバイスへのモデルデプロイメントにおいて、パフォーマンスと効率の最適なバランスを達成するための有望なアプローチを提供する。本稿では,3つの臨界次元を協調的に最適化するJAQフレームワークを提案する。しかし、これらの3次元の広大な探索空間における設計プロセスを効果的に自動化することは、特に極端に低ビットの量子化を追求する場合、大きな課題となる。 1) ソフトウェア側のメモリオーバーヘッド: 低精度の量子化対応トレーニングは、大きな中間機能とバックプロパゲーションの遅延重みを格納するため、メモリ使用量を大幅に増加させ、メモリ枯渇を引き起こす可能性がある。 2) ハードウェア側での探索に要する時間: ハードウェアパラメータの離散的性質と,コンパイラ最適化と個々の演算子間の複雑な相互作用により,加速器の探索に要する時間を短縮する。これらの問題に対処するため、JAQはチャネルワイズスパース量子化(CSQ)スキームを通じてメモリオーバーヘッドを軽減し、最適化中にモデルの最も敏感なコンポーネントに量子化を選択的に適用する。さらに、JAQはハードウェア生成ネットワークを使用して可能な全てのタイリングモードをエンコードし、最適なコンパイラマッピング戦略の探索を高速化するBatchTileを設計した。大規模な実験はJAQの有効性を示し、ImageNetのTop-1の精度は約7%向上し、1イテレーションあたりのハードウェア検索時間を0.15秒に短縮した。

関連論文リスト

D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization [6.456189487006878]
基本モデル(FM)の量子化は、外れ値と呼ばれる大きめの値の出現によって困難である。既存のoutlier-awareアルゴリズムアーキテクチャの共同設計技術は、混合精度を使用し、outlierを高い精度で保持するが、ハードウェア効率を損なうか、同じ精度でinlierとoutlierを定量化する。我々は、プルーニングを利用して外れ値認識量子化を補完する新しい共同設計手法MicroScopiQを提案する。
論文参考訳（メタデータ） (2024-11-08T02:25:45Z)
Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-01T08:07:02Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。問題の大きさと問題グラフの次数で指数関数的に増大する。これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文参考訳（メタデータ） (2022-01-06T21:02:30Z)
Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文参考訳（メタデータ） (2020-10-09T03:52:16Z)
Space-efficient binary optimization for variational computing [68.8204255655161]
本研究では,トラベリングセールスマン問題に必要なキュービット数を大幅に削減できることを示す。また、量子ビット効率と回路深さ効率のモデルを円滑に補間する符号化方式を提案する。
論文参考訳（メタデータ） (2020-09-15T18:17:27Z)
Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文参考訳（メタデータ） (2020-08-11T17:30:22Z)
APQ: Joint Search for Network Architecture, Pruning and Quantization Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文参考訳（メタデータ） (2020-06-15T16:09:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。