論文の概要: DPVO-QAT++: Heterogeneous QAT and CUDA Kernel Fusion for High-Performance Deep Patch Visual Odometry
- arxiv url: http://arxiv.org/abs/2511.12653v1
- Date: Sun, 16 Nov 2025 15:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.428415
- Title: DPVO-QAT++: Heterogeneous QAT and CUDA Kernel Fusion for High-Performance Deep Patch Visual Odometry
- Title(参考訳): DPVO-QAT++ : 高速深部画像計測のための異種QATとCUDA核融合
- Authors: Cheng Liao,
- Abstract要約: 本稿では,DPVO-QAT++ (DPVO-QAT++: Heterogeneous QAT and Kernel Fusion for High-Performance Deep Patch Visual Odometry)を提案する。
- 参考スコア(独自算出の注目度): 0.8122270502556375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning-based Visual SLAM (vSLAM) systems exhibit exceptional geometric reasoning capabilities, yet their prohibitive computational overhead severely restricts deployment on resource-constrained autonomous platforms. This paper presents a hierarchical quantization optimization framework, DPVO-QAT++ (DPVO-QAT++: Heterogeneous QAT and CUDA Kernel Fusion for High-Performance Deep Patch Visual Odometry). Through the synergistic integration of learnable scale parameterization, a heterogeneous precision design for the Visual Odometry (VO) front-end and back-end (front-end floating-point fake quantization with FP16/FP32; back-end full precision), and GPU-native kernel fusion for fake quantization (custom CUDA kernels), our framework significantly reduces memory footprint and increases processing speed while preserving the trajectory accuracy of the original model. On the TartanAir dataset, our framework achieves an average FPS increase of 52.1%, a 29.1% reduction in median latency, and a 64.9% reduction in peak GPU memory reservation, while maintaining trajectory accuracy (ATE) comparable to the original DPVO model across 32 validation sequences. On the EuRoC dataset, it realizes an average FPS increase of 30.1%, a 23.1% reduction in median latency, and a 37.7% reduction in peak GPU memory reservation, maintaining comparable trajectory accuracy (ATE) across 11 validation sequences. Experimental results demonstrate that DPVO-QAT++ effectively bridges the gap between high-precision deep VO and the efficiency requirements for practical deployment, offering a viable engineering paradigm for the application of this technology on real-world embedded platforms. Keywords: Visual Odometry, Heterogeneous Precision Architecture, Quantization-Aware Training, CUDA Kernel Fusion, Scale-Only Training, Deep Patch Visual Odometry, GPU-Native Kernel Fusion.
- Abstract(参考訳): ディープラーニングベースのVisual SLAM(vSLAM)システムは、例外的な幾何学的推論能力を示すが、その禁止的な計算オーバーヘッドは、リソースに制約のある自律プラットフォームへのデプロイを厳しく制限する。
本稿では,DPVO-QAT++ (DPVO-QAT++: Heterogeneous QAT and CUDA Kernel Fusion for High-Performance Deep Patch Visual Odometry)を提案する。
学習可能なスケールパラメータ化の相乗的統合により、Visual Odometry(VO)フロントエンドとバックエンド(FP16/FP32によるフロントエンド浮動小数点量子化)のための不均一な精度設計と、フェイク量子化のためのGPUネイティブカーネル融合(カストムCUDAカーネル)により、本フレームワークは、元のモデルの軌道精度を維持しながらメモリフットプリントを著しく削減し、処理速度を向上する。
TartanAirデータセットでは、我々のフレームワークは平均52.1%のFPS増加、29.1%の中央遅延、64.9%のピークGPUメモリ予約、32の検証シーケンスにわたる元のDPVOモデルに匹敵する軌道精度(ATE)を維持しながら達成している。
EuRoCデータセットでは、平均FPSが30.1%増加し、中央値のレイテンシが23.1%減少し、ピークのGPUメモリ予約が37.7%減少し、11の検証シーケンスで同等の軌道精度(ATE)を維持している。
実験の結果,DPVO-QAT++は高精度の深部VOと実用展開の効率要件のギャップを効果的に埋めることが実証された。
キーワード:ビジュアルオドメトリー、異種精密アーキテクチャ、量子化対応トレーニング、CUDAカーネルフュージョン、スケールオンリートレーニング、ディープパッチビジュアルオドメトリー、GPUネイティブカーネルフュージョン。
関連論文リスト
- CuSfM: CUDA-Accelerated Structure-from-Motion [13.047004116582423]
cuSfMは、計算的に高速化されたオフラインのStructure-from-Motionシステムである。
正確なカメラポーズ推定とグローバルな一貫したマッピングのために、包括的で非冗長なデータアソシエーションを生成する。
このシステムはPythonのオープンソース実装であるPyCuSfMとしてリリースされ、コンピュータビジョンとロボティクスの研究と応用を容易にする。
論文 参考訳(メタデータ) (2025-10-17T03:29:11Z) - Finding Optimal Kernel Size and Dimension in Convolutional Neural Networks An Architecture Optimization Approach [0.0]
畳み込みニューラルネットワーク(CNN)におけるカーネルサイズ選択は批判的だが、しばしば見過ごされる設計決定である。
本稿では,最適なカーネルサイズ決定のためのBKSEF(Best Kernel Size Estimation)を提案する。
BKSEFは情報理論、信号処理、学習理論の原理を統合することで、情報ゲイン、計算効率、精度の向上のバランスをとる。
論文 参考訳(メタデータ) (2025-06-16T15:15:30Z) - QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge [55.75103034526652]
ASIC のハードウェアアクセラレーションによる MDE モデルの定量化を後学習量子化に応用した QuartDepth を提案する。
提案手法では,重みとアクティベーションの両方を4ビット精度で定量化し,モデルサイズと計算コストを削減する。
我々は、カーネル融合とカスタマイズされた命令プログラム性をサポートすることにより、フレキシブルでプログラム可能なハードウェアアクセラレータを設計する。
論文 参考訳(メタデータ) (2025-03-20T21:03:10Z) - Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。
ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。
エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。
より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文 参考訳(メタデータ) (2024-03-22T07:32:21Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。