論文の概要: Which2comm: An Efficient Collaborative Perception Framework for 3D Object Detection
- arxiv url: http://arxiv.org/abs/2503.17175v1
- Date: Fri, 21 Mar 2025 14:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:32.995183
- Title: Which2comm: An Efficient Collaborative Perception Framework for 3D Object Detection
- Title(参考訳): Who2comm: 3次元物体検出のための効率的な協調認識フレームワーク
- Authors: Duanrui Yu, Jing You, Xin Pei, Anqi Qu, Dingyu Wang, Shaocheng Jia,
- Abstract要約: 協調認識は、リアルタイムのエージェント間の情報交換を可能にする。
実用シナリオにおける通信帯域幅の制限は、エージェント間データ転送量を制限する。
オブジェクトレベルのスパース機能を利用した新しいマルチエージェント3Dオブジェクト検出フレームワークであるH which2commを提案する。
- 参考スコア(独自算出の注目度): 5.195291754828701
- License:
- Abstract: Collaborative perception allows real-time inter-agent information exchange and thus offers invaluable opportunities to enhance the perception capabilities of individual agents. However, limited communication bandwidth in practical scenarios restricts the inter-agent data transmission volume, consequently resulting in performance declines in collaborative perception systems. This implies a trade-off between perception performance and communication cost. To address this issue, we propose Which2comm, a novel multi-agent 3D object detection framework leveraging object-level sparse features. By integrating semantic information of objects into 3D object detection boxes, we introduce semantic detection boxes (SemDBs). Innovatively transmitting these information-rich object-level sparse features among agents not only significantly reduces the demanding communication volume, but also improves 3D object detection performance. Specifically, a fully sparse network is constructed to extract SemDBs from individual agents; a temporal fusion approach with a relative temporal encoding mechanism is utilized to obtain the comprehensive spatiotemporal features. Extensive experiments on the V2XSet and OPV2V datasets demonstrate that Which2comm consistently outperforms other state-of-the-art methods on both perception performance and communication cost, exhibiting better robustness to real-world latency. These results present that for multi-agent collaborative 3D object detection, transmitting only object-level sparse features is sufficient to achieve high-precision and robust performance.
- Abstract(参考訳): 協調的知覚は、リアルタイムのエージェント間情報交換を可能にし、個々のエージェントの知覚能力を高めるための貴重な機会を提供する。
しかし、実践シナリオにおける通信帯域幅の制限は、エージェント間データ転送量を制限し、結果として協調認識システムの性能が低下する。
これは、知覚性能と通信コストのトレードオフを意味する。
この問題に対処するために,オブジェクトレベルのスパース機能を活用した新しいマルチエージェント3Dオブジェクト検出フレームワークであるWhater2commを提案する。
オブジェクトの意味情報を3Dオブジェクト検出ボックスに統合することにより、セマンティック検出ボックス(SemDB)を導入する。
エージェント間での情報豊富なオブジェクトレベルのスパース機能を革新的に伝達することで、要求される通信量を大幅に削減するだけでなく、3Dオブジェクト検出性能も向上する。
具体的には、個々のエージェントからSemDBを抽出するために、完全なスパースネットワークを構築し、相対的な時間的エンコーディング機構を備えた時間的融合アプローチを用いて、包括的な時空間特性を得る。
V2XSetとOPV2Vデータセットの大規模な実験により、どちらのV2commも、認識性能と通信コストの両方において、常に最先端の手法よりも優れており、現実のレイテンシに対してより堅牢であることが示された。
これらの結果から,複数エージェントの協調3次元物体検出において,オブジェクトレベルのスパースのみを伝達することは,高精度で堅牢な性能を実現するのに十分であることが示唆された。
関連論文リスト
- MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Spatio-Temporal Domain Awareness for Multi-Agent Collaborative
Perception [18.358998861454477]
車両間通信の潜在的な応用としてのマルチエージェント協調認識は、単一エージェント認識よりも自律走行車の性能知覚を著しく向上させる可能性がある。
本稿では,エージェント間の認識特性をエンドツーエンドに集約する新しい協調認識フレームワークSCOPEを提案する。
論文 参考訳(メタデータ) (2023-07-26T03:00:31Z) - SSC3OD: Sparsely Supervised Collaborative 3D Object Detection from LiDAR
Point Clouds [16.612824810651897]
疎密な協調3Dオブジェクト検出フレームワークSSC3ODを提案する。
各エージェントは、シーン内の1つのオブジェクトをランダムにラベルするだけです。
疎調整された3Dオブジェクト検出器の性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-07-03T02:42:14Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z) - SESS: Self-Ensembling Semi-Supervised 3D Object Detection [138.80825169240302]
具体的には、ラベルのない新しい未知のデータに基づくネットワークの一般化を促進するための、徹底的な摂動スキームを設計する。
我々のSESSは、50%のラベル付きデータを用いて、最先端の完全教師付き手法と比較して、競争性能を達成している。
論文 参考訳(メタデータ) (2019-12-26T08:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。