論文の概要: SparseCoop: Cooperative Perception with Kinematic-Grounded Queries
- arxiv url: http://arxiv.org/abs/2512.06838v1
- Date: Sun, 07 Dec 2025 13:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.548505
- Title: SparseCoop: Cooperative Perception with Kinematic-Grounded Queries
- Title(参考訳): SparseCoop:Kinematic-Grounded Queriesとの協調認識
- Authors: Jiahao Wang, Zhongwei Jiang, Wenchao Sun, Jiaru Zhong, Haibao Yu, Yuner Zhang, Chenyang Lu, Chuang Zhang, Lei He, Shaobing Xu, Jianqiang Wang,
- Abstract要約: SparseCoopは3次元検出と追跡のための完全にスパースな協調認識フレームワークである。
2X-SeqとGriffinのデータセットの実験は、SparseCoopが最先端のパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 24.54324085409114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative perception is critical for autonomous driving, overcoming the inherent limitations of a single vehicle, such as occlusions and constrained fields-of-view. However, current approaches sharing dense Bird's-Eye-View (BEV) features are constrained by quadratically-scaling communication costs and the lack of flexibility and interpretability for precise alignment across asynchronous or disparate viewpoints. While emerging sparse query-based methods offer an alternative, they often suffer from inadequate geometric representations, suboptimal fusion strategies, and training instability. In this paper, we propose SparseCoop, a fully sparse cooperative perception framework for 3D detection and tracking that completely discards intermediate BEV representations. Our framework features a trio of innovations: a kinematic-grounded instance query that uses an explicit state vector with 3D geometry and velocity for precise spatio-temporal alignment; a coarse-to-fine aggregation module for robust fusion; and a cooperative instance denoising task to accelerate and stabilize training. Experiments on V2X-Seq and Griffin datasets show SparseCoop achieves state-of-the-art performance. Notably, it delivers this with superior computational efficiency, low transmission cost, and strong robustness to communication latency. Code is available at https://github.com/wang-jh18-SVM/SparseCoop.
- Abstract(参考訳): 協調認識は自律運転において重要であり、閉塞や視野の制約といった単一車両固有の制限を克服する。
しかし、現在のBird's-Eye-View(BEV)機能を共有するアプローチは、二次スケーリング通信コストと、非同期または異なる視点で正確なアライメントを行うための柔軟性と解釈性の欠如によって制約されている。
出現するスパースクエリベースの手法は代替手段を提供するが、しばしば不適切な幾何学的表現、準最適融合戦略、トレーニング不安定に悩まされる。
本稿では,中間的BEV表現を完全に捨てる3次元検出・追跡のための,完全にスパースな協調認識フレームワークであるSparseCoopを提案する。
我々のフレームワークは3つのイノベーションを特徴としている。3次元形状と速度を持つ明示的な状態ベクトルを用いて正確な時空間アライメントを行うキネマティック・グラウンドド・インスタンスクエリ、ロバスト・フュージョンのための粗大な集合モジュール、トレーニングの加速と安定化のための協調的なインスタンス記述タスクである。
V2X-SeqとGriffinデータセットの実験は、SparseCoopが最先端のパフォーマンスを達成することを示している。
特に、計算効率が優れ、伝送コストが低く、通信遅延に対する堅牢性も高い。
コードはhttps://github.com/wang-jh18-SVM/SparseCoop.orgで公開されている。
関連論文リスト
- INSTINCT: Instance-Level Interaction Architecture for Query-Based Collaborative Perception [6.018757656052237]
協調認識システムは、マルチエージェントの知覚データを統合し、精度と安全性を向上させることで、単一車両の制限を克服する。
これまでの研究は、クエリベースのインスタンスレベルのインタラクションが帯域幅の要求と手作業による事前処理を減らすことを証明してきたが、協調認識におけるLiDARによる実装は未開発のままである。
InSTINCTは,(1)高品質なインスタンス特徴選択のための品質認識型フィルタリング機構,2)協調関連インスタンスと協調関連インスタンスを分離するデュアルブランチ検出ルーティングスキーム,3)クロスエージェントローカルインスタンスフュージョンモジュール,の3つのコアコンポーネントを特徴とする新しい協調認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-28T07:16:32Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - SparseAlign: A Fully Sparse Framework for Cooperative Object Detection [38.96043178218958]
完全スパースフレームワークであるSparseAlignを、拡張されたスパース3Dバックボーン、クエリベースの時間文脈学習モジュール、スパース機能に特化された堅牢な検出ヘッドの3つの主要な特徴で設計する。
我々のフレームワークは、その拡張性にも拘わらず、通信帯域幅の少ない技術よりも優れています。
論文 参考訳(メタデータ) (2025-03-17T09:38:53Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - StreamLTS: Query-based Temporal-Spatial LiDAR Fusion for Cooperative Object Detection [0.552480439325792]
我々は、広く使われているデータセットOPV2VとDairV2Xを適応させる、TA-COOD(Time-Aligned Cooperative Object Detection)を提案する。
実験結果から, 最先端の高密度モデルと比較して, 完全スパースフレームワークの優れた効率性が確認された。
論文 参考訳(メタデータ) (2024-07-04T10:56:10Z) - Asynchrony-Robust Collaborative Perception via Bird's Eye View Flow [45.670727141966545]
協調的知覚は、複数のエージェント間のコミュニケーションを促進することによって、各エージェントの知覚能力を高めることができる。
しかし、エージェント間の時間的同期は、通信遅延、割り込み、時計の不一致により、現実世界では避けられない。
本稿では,鳥の視線(BEV)の流れをベースとした,非同期・ロバスト協調認識システムCoBEVFlowを提案する。
論文 参考訳(メタデータ) (2023-09-29T02:45:56Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。