論文の概要: QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge
- arxiv url: http://arxiv.org/abs/2503.16709v1
- Date: Thu, 20 Mar 2025 21:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:23.377414
- Title: QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge
- Title(参考訳): QuartDepth: エッジ上のリアルタイム深さ推定のためのポストトレーニング量子化
- Authors: Xuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu,
- Abstract要約: ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
- 参考スコア(独自算出の注目度): 55.75103034526652
- License:
- Abstract: Monocular Depth Estimation (MDE) has emerged as a pivotal task in computer vision, supporting numerous real-world applications. However, deploying accurate depth estimation models on resource-limited edge devices, especially Application-Specific Integrated Circuits (ASICs), is challenging due to the high computational and memory demands. Recent advancements in foundational depth estimation deliver impressive results but further amplify the difficulty of deployment on ASICs. To address this, we propose QuartDepth which adopts post-training quantization to quantize MDE models with hardware accelerations for ASICs. Our approach involves quantizing both weights and activations to 4-bit precision, reducing the model size and computation cost. To mitigate the performance degradation, we introduce activation polishing and compensation algorithm applied before and after activation quantization, as well as a weight reconstruction method for minimizing errors in weight quantization. Furthermore, we design a flexible and programmable hardware accelerator by supporting kernel fusion and customized instruction programmability, enhancing throughput and efficiency. Experimental results demonstrate that our framework achieves competitive accuracy while enabling fast inference and higher energy efficiency on ASICs, bridging the gap between high-performance depth estimation and practical edge-device applicability. Code: https://github.com/shawnricecake/quart-depth
- Abstract(参考訳): 単眼深度推定(MDE)はコンピュータビジョンにおける重要なタスクとして登場し、多くの現実世界のアプリケーションをサポートしている。
しかし、リソース制限エッジデバイス、特にアプリケーション特化集積回路(ASIC)に正確な深度推定モデルを配置することは、高い計算とメモリ要求のために困難である。
基礎深度推定の最近の進歩は印象的な結果をもたらすが、ASICへの展開の難しさをさらに増幅する。
そこで本研究では,MDEモデルをASICのハードウェアアクセラレーションで定量化するために,学習後の量子化を取り入れたQuatDepthを提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
性能劣化を軽減するため,活性化量子化前後に適用した活性化研磨・補償アルゴリズムと,重み量子化における誤差の最小化のための重み再構成手法を導入する。
さらに、カーネル融合とカスタマイズされた命令プログラム可能性をサポートし、スループットと効率を向上させることで、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
実験により,本フレームワークはASICの高速推論と高エネルギー効率を実現し,高性能深度推定とエッジデバイス応用のギャップを埋めつつ,競争精度を向上することを示した。
コード:https://github.com/shawnricecake/quart-depth
関連論文リスト
- Feasibility of accelerating incompressible computational fluid dynamics simulations with fault-tolerant quantum computers [1.7812428873698407]
本研究では, CFDシミュレーションの高速化と精度向上のため, フォールトトレラント量子コンピュータの適用可能性について検討した。
球面上のドラッグ力の単純な場合に必要な量子資源を推定する。
論文 参考訳(メタデータ) (2024-06-10T14:38:46Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for
the Acceleration of Lightweight LLMs on the Edge [40.85258685379659]
トレーニング後の量子化(PTQ)メソッドは、ウェイト、アクティベーション、KVキャッシュを同時に8ビット以下に定量化する際に品質が低下する。
多くのQAT(Quantization-Aware Training)は、モデルウェイトを定量化し、アクティベーションを未修正のまま残し、エッジ上の推論加速度の量子化の可能性を完全に活用しない。
We propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of light LLMs to achieve inference acceleration on Edge devices。
論文 参考訳(メタデータ) (2024-02-16T16:10:38Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Efficient Neural PDE-Solvers using Quantization Aware Training [71.0934372968972]
量子化は、性能を維持しながら推論の計算コストを下げることができることを示す。
4つの標準PDEデータセットと3つのネットワークアーキテクチャの結果、量子化対応のトレーニングは、設定と3桁のFLOPで機能することがわかった。
論文 参考訳(メタデータ) (2023-08-14T09:21:19Z) - Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。
問題の大きさと問題グラフの次数で指数関数的に増大する。
これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文 参考訳(メタデータ) (2022-01-06T21:02:30Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。