論文の概要: RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception
- arxiv url: http://arxiv.org/abs/2501.16803v1
- Date: Tue, 28 Jan 2025 09:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:17.509127
- Title: RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception
- Title(参考訳): RG-Attn : マルチモーダルマルチエージェント協調知覚におけるラジアングルーの注意
- Authors: Lantao Li, Kang Yang, Wenqi Zhang, Xiaoxue Wang, Chen Sun,
- Abstract要約: 車間通信(V2X)は、単一エージェントシステムの知覚限界を克服する最適なソリューションを提供する。
PTP(Paint-To-Puzzle)とCo-Sketching-Co-Co(Co-Sketching-Co-Co)という2つの異なるアーキテクチャを提案する。
提案手法は,実・模擬協調認識データセット上でのSOTA(State-of-the-art)性能を実現する。
- 参考スコア(独自算出の注目度): 12.90369816793173
- License:
- Abstract: Cooperative perception offers an optimal solution to overcome the perception limitations of single-agent systems by leveraging Vehicle-to-Everything (V2X) communication for data sharing and fusion across multiple agents. However, most existing approaches focus on single-modality data exchange, limiting the potential of both homogeneous and heterogeneous fusion across agents. This overlooks the opportunity to utilize multi-modality data per agent, restricting the system's performance. In the automotive industry, manufacturers adopt diverse sensor configurations, resulting in heterogeneous combinations of sensor modalities across agents. To harness the potential of every possible data source for optimal performance, we design a robust LiDAR and camera cross-modality fusion module, Radian-Glue-Attention (RG-Attn), applicable to both intra-agent cross-modality fusion and inter-agent cross-modality fusion scenarios, owing to the convenient coordinate conversion by transformation matrix and the unified sampling/inversion mechanism. We also propose two different architectures, named Paint-To-Puzzle (PTP) and Co-Sketching-Co-Coloring (CoS-CoCo), for conducting cooperative perception. PTP aims for maximum precision performance and achieves smaller data packet size by limiting cross-agent fusion to a single instance, but requiring all participants to be equipped with LiDAR. In contrast, CoS-CoCo supports agents with any configuration-LiDAR-only, camera-only, or LiDAR-camera-both, presenting more generalization ability. Our approach achieves state-of-the-art (SOTA) performance on both real and simulated cooperative perception datasets. The code will be released at GitHub in early 2025.
- Abstract(参考訳): 協調知覚は、複数のエージェント間でのデータ共有と融合にV2X通信を活用することにより、単一エージェントシステムの知覚限界を克服する最適なソリューションを提供する。
しかし、既存のほとんどのアプローチは単一のモダリティデータ交換に焦点を合わせ、エージェント間の均質核融合と異質核融合の可能性を制限している。
これは、エージェントごとのマルチモダリティデータを利用する機会を見落とし、システムのパフォーマンスを制限します。
自動車業界では、メーカーは多様なセンサー構成を採用しており、エージェント間のセンサーの均一な組み合わせとなっている。
任意のデータソースのポテンシャルを最適性能に活用するために、変換行列による便利な座標変換と統一サンプリング/インバージョン機構により、エージェント内相互モーダル融合とエージェント間相互モーダル融合の両方に適用可能なロバストLiDARおよびカメラクロスモーダル融合モジュールRG-Attnを設計する。
また、協調的な知覚を行うために、Paint-To-Puzzle(PTP)とCoS-CoCo(CoS-CoCo)という2つの異なるアーキテクチャを提案する。
PTPは最大精度を目標とし、単一インスタンスへのクロスエージェント融合を制限することでデータパケットサイズを小さくするが、全ての参加者にLiDARを装着する必要がある。
これとは対照的に、CoS-CoCoはLiDARのみ、カメラのみ、またはLiDARカメラの両方のエージェントをサポートし、より一般化能力を示している。
提案手法は,実・模擬協調認識データセット上でのSOTA(State-of-the-art)性能を実現する。
コードは2025年初頭にGitHubでリリースされる予定だ。
関連論文リスト
- CoMiX: Cross-Modal Fusion with Deformable Convolutions for HSI-X Semantic Segmentation [10.26122715098048]
CoMiXは非対称エンコーダデコーダアーキテクチャであり、HSI-Xセマンティックセマンティックセグメンテーションのための変形可能な畳み込み(DCN)を備えている。
CoMiXは、HSIおよびXデータから情報を抽出し、校正し、ヒューズするように設計されている。
論文 参考訳(メタデータ) (2024-11-13T21:00:28Z) - Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots [1.1049608786515839]
エージェント間の分散意思決定を協調するための協調型非同期トランスフォーマーベースミッションプランニング(CATMiP)フレームワークを提案する。
我々は,CATMiPを2次元グリッドワールドシミュレーション環境で評価し,その性能を計画に基づく探索法と比較した。
論文 参考訳(メタデータ) (2024-10-08T21:14:09Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - MACP: Efficient Model Adaptation for Cooperative Perception [23.308578463976804]
協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。
提案手法は,協調観測を効果的に活用し,他の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T14:24:42Z) - BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities [5.034692611033509]
我々は,LiDARとカメラを用いた協調認識パラダイムBM2CPを提案し,効率的なマルチモーダル認識を実現する。
センサーの1つ、同じまたは異なるタイプのエージェントが欠落している場合に対処することができる。
提案手法は,シミュレーションおよび実世界の自律走行シナリオにおいて,50倍の通信量で最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions [14.700807572189412]
本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
論文 参考訳(メタデータ) (2021-07-24T11:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。