論文の概要: QuantV2X: A Fully Quantized Multi-Agent System for Cooperative Perception
- arxiv url: http://arxiv.org/abs/2509.03704v1
- Date: Wed, 03 Sep 2025 20:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.967446
- Title: QuantV2X: A Fully Quantized Multi-Agent System for Cooperative Perception
- Title(参考訳): QuantV2X: 協調知覚のための完全量子化マルチエージェントシステム
- Authors: Seth Z. Zhao, Huizhi Zhang, Zhaowei Li, Juntong Peng, Anthony Chui, Zewei Zhou, Zonglin Meng, Hao Xiang, Zhiyu Huang, Fujia Wang, Ran Tian, Chenfeng Xu, Bolei Zhou, Jiaqi Ma,
- Abstract要約: textbfQuantV2Xは、協調知覚の効率的な展開のための、最初の完全量子化されたマルチエージェントシステムである。
低ビットの制約の下で動作しているにもかかわらず、QuantV2Xは完全精度のシステムに匹敵する精度を達成している。
その結果,実世界展開のための完全量子化マルチエージェント中間核融合システムの実現可能性を強調した。
- 参考スコア(独自算出の注目度): 47.35478308553379
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Cooperative perception through Vehicle-to-Everything (V2X) communication offers significant potential for enhancing vehicle perception by mitigating occlusions and expanding the field of view. However, past research has predominantly focused on improving accuracy metrics without addressing the crucial system-level considerations of efficiency, latency, and real-world deployability. Noticeably, most existing systems rely on full-precision models, which incur high computational and transmission costs, making them impractical for real-time operation in resource-constrained environments. In this paper, we introduce \textbf{QuantV2X}, the first fully quantized multi-agent system designed specifically for efficient and scalable deployment of multi-modal, multi-agent V2X cooperative perception. QuantV2X introduces a unified end-to-end quantization strategy across both neural network models and transmitted message representations that simultaneously reduces computational load and transmission bandwidth. Remarkably, despite operating under low-bit constraints, QuantV2X achieves accuracy comparable to full-precision systems. More importantly, when evaluated under deployment-oriented metrics, QuantV2X reduces system-level latency by 3.2$\times$ and achieves a +9.5 improvement in mAP30 over full-precision baselines. Furthermore, QuantV2X scales more effectively, enabling larger and more capable models to fit within strict memory budgets. These results highlight the viability of a fully quantized multi-agent intermediate fusion system for real-world deployment. The system will be publicly released to promote research in this field: https://github.com/ucla-mobility/QuantV2X.
- Abstract(参考訳): 車両間コミュニケーション(V2X)による協調的知覚は、閉塞を緩和し視野を広げることにより、車両の知覚を高める重要な可能性をもたらす。
しかし、これまでの研究では、効率性、レイテンシ、実際のデプロイ可能性といった重要なシステムレベルの考慮に対処することなく、精度メトリクスの改善に重点を置いてきた。
既存のシステムの多くは、計算と送信のコストが高い完全精度のモデルに依存しており、資源制約のある環境でのリアルタイム運用には実用的ではない。
本稿では,マルチモーダル・マルチエージェントV2X協調認識の効率的かつスケーラブルな展開を目的とした,最初の完全量子化マルチエージェントシステムである \textbf{QuantV2X} を紹介する。
QuantV2Xは、ニューラルネットワークモデルと送信メッセージ表現の両方にわたって、統一されたエンドツーエンド量子化戦略を導入し、計算負荷と送信帯域を同時に削減する。
注目すべきは、低ビットの制約の下で動作しているにもかかわらず、QuantV2Xは完全精度のシステムに匹敵する精度を達成することである。
さらに重要なことは、デプロイメント指向のメトリクスで評価する場合、QuantV2Xはシステムレベルのレイテンシを3.2$\times$に減らし、完全精度のベースラインよりもmAP30を+9.5改善する。
さらに、QuantV2Xはより効果的にスケールし、より大きく、より有能なモデルを厳格なメモリ予算に適合させることができる。
これらの結果は,実世界展開のための完全量子化マルチエージェント中間核融合システムの実現可能性を強調した。
このシステムは、この分野の研究を促進するために、 https://github.com/ucla-mobility/QuantV2X として公開される。
関連論文リスト
- A Lightweight Group Multiscale Bidirectional Interactive Network for Real-Time Steel Surface Defect Detection [15.140649886958945]
Group Multiscale Bidirectional Interactive (GMBI)モジュールは、マルチスケールの特徴抽出と相互作用を強化する。
SD-Saliency-900とNRSD-MNデータセットの実験は、GMBINetがGPUで1048 FPS、CPUで512解像度で16.53 FPSのリアルタイム速度で競合精度を提供することを示した。
論文 参考訳(メタデータ) (2025-08-22T13:58:35Z) - Efficient Edge LLMs Deployment via HessianAware Quantization and CPU GPU Collaborative [31.74122603714625]
Mixture of Experts (MoE)アーキテクチャは、スパースアクティベーションによってモデルのキャパシティを向上させる。
MoEは実践的な展開において2つの大きな困難に直面している。
メモリ制限下では、専門家モジュールの効率的なオフロードと協調的な推論は、レイテンシとスループットのバランスをとるのに苦労する。
本稿では,Hessian-Aware Quantization (HAQ)とCPU-GPU協調推論に基づく効率的なMoEエッジ配置方式を提案する。
論文 参考訳(メタデータ) (2025-08-10T12:59:57Z) - EQuARX: Efficient Quantized AllReduce in XLA for Distributed Machine Learning Acceleration [3.757632817011334]
TPU用のXLAコンパイラ(EQuarX)内で、ネイティブな動的ブロックワイドな量子化AllReduceを提案する。
TPUフレンドリーな量子化と通信と計算の深いパイプライン化により、t8精度のEQuARXはベースラインのBF16 AllReduceよりも1.8倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-06-21T06:54:52Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。