論文の概要: DRCP: Diffusion on Reinforced Cooperative Perception for Perceiving Beyond Limits
- arxiv url: http://arxiv.org/abs/2509.24903v1
- Date: Mon, 29 Sep 2025 15:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.081424
- Title: DRCP: Diffusion on Reinforced Cooperative Perception for Perceiving Beyond Limits
- Title(参考訳): DRCP : 限界を超える知覚に対する協調認知の拡散
- Authors: Lantao Li, Kang Yang, Rui Song, Chen Sun,
- Abstract要約: Diffusion on Reinforced Cooperative Perception (DRCP)は動的運転環境における問題に対処するために設計されたリアルタイムデプロイ可能なフレームワークである。
提案システムは,モバイルプラットフォーム上でのリアルタイムなパフォーマンスを実現するとともに,困難な条件下でのロバスト性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 11.34052678290095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative perception enabled by Vehicle-to-Everything communication has shown great promise in enhancing situational awareness for autonomous vehicles and other mobile robotic platforms. Despite recent advances in perception backbones and multi-agent fusion, real-world deployments remain challenged by hard detection cases, exemplified by partial detections and noise accumulation which limit downstream detection accuracy. This work presents Diffusion on Reinforced Cooperative Perception (DRCP), a real-time deployable framework designed to address aforementioned issues in dynamic driving environments. DRCP integrates two key components: (1) Precise-Pyramid-Cross-Modality-Cross-Agent, a cross-modal cooperative perception module that leverages camera-intrinsic-aware angular partitioning for attention-based fusion and adaptive convolution to better exploit external features; and (2) Mask-Diffusion-Mask-Aggregation, a novel lightweight diffusion-based refinement module that encourages robustness against feature perturbations and aligns bird's-eye-view features closer to the task-optimal manifold. The proposed system achieves real-time performance on mobile platforms while significantly improving robustness under challenging conditions. Code will be released in late 2025.
- Abstract(参考訳): 車両間コミュニケーションによって実現された協調認識は、自動運転車や他の移動ロボットプラットフォームに対する状況認識を高める上で大きな可能性を秘めている。
近年の知覚バックボーンとマルチエージェント融合の進歩にもかかわらず、実世界の展開は、下流検出の精度を制限する部分的な検出とノイズ蓄積によって実証された、ハードな検出ケースによって挑戦され続けている。
この研究は、動的運転環境における上記の問題に対処するために設計されたリアルタイムデプロイ可能なフレームワークであるDiffusion on Reinforced Cooperative Perception (DRCP)を提示する。
DRCPは2つの重要なコンポーネントを統合している。(1)Pyramid-Cross-Modality-Cross-Cross-Agentはカメラ固有の角方向分割を利用して、注意に基づく融合と適応的畳み込みを利用して外部特徴をよりよく活用するクロスモーダルな協調認識モジュールであり、(2)Mask-Diffusion-Mask-Aggregationは、特徴摂動に対する堅牢性を促進し、タスク最適多様体に近い鳥の目視特徴を調整する新しい軽量な拡散ベース改良モジュールである。
提案システムは,モバイルプラットフォーム上でのリアルタイムなパフォーマンスを実現するとともに,困難な条件下でのロバスト性を大幅に向上させる。
コードは2025年末にリリースされる予定だ。
関連論文リスト
- ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - V2X-DGPE: Addressing Domain Gaps and Pose Errors for Robust Collaborative 3D Object Detection [18.694510415777632]
V2X-DGPEは高精度で堅牢なV2X特徴レベルの協調認識フレームワークである。
提案手法は既存の手法より優れ、最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-01-04T19:28:55Z) - CAFuser: Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、コンディショントークンを生成する。
我々のモデルは、特に悪条件シナリオにおいて、ロバスト性と精度を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - CoMamba: Real-time Cooperative Perception Unlocked with State Space Models [39.87600356189242]
CoMambaは、リアルタイム車載認識にステートスペースモデルを活用するために設計された、新しい3D検出フレームワークである。
CoMambaは、リアルタイム処理能力を維持しながら、既存の方法よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-09-16T20:02:19Z) - Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - Learning to Communicate and Correct Pose Errors [75.03747122616605]
本稿では、V2VNetで提案された設定について検討し、近くにある自動運転車が共同で物体検出と動き予測を協調的に行う方法を提案する。
本稿では,コミュニケーションを学習し,潜在的な誤りを推定し,それらの誤りについてコンセンサスを得るための新しいニューラルネットワーク推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-10T18:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。