論文の概要: RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception
- arxiv url: http://arxiv.org/abs/2501.16803v3
- Date: Wed, 24 Sep 2025 07:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 16:23:42.113493
- Title: RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception
- Title(参考訳): RG-Attn : マルチモーダルマルチエージェント協調知覚におけるラジアングルーの注意
- Authors: Lantao Li, Kang Yang, Wenqi Zhang, Xiaoxue Wang, Chen Sun,
- Abstract要約: Radian Glue Attention (RG-Attn) は軽量で一般化可能なクロスモーダル核融合モジュールである。
RG-Attnは、ラジアンベースの注意制約を通じて、効率的に特徴を整列する。
Paint-To-Puzzle (PTP)は通信効率を優先するが、すべてのエージェントがカメラを持っていると仮定する。
CoS-CoCoは最大柔軟性を提供し、あらゆるセンサー設定をサポートする。
Pyramid-RG-Attn Fusion (PRGAF) は計算オーバーヘッドが最も高いピーク検出精度を目指している。
- 参考スコア(独自算出の注目度): 14.450341173771486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative perception enhances autonomous driving by leveraging Vehicle-to-Everything (V2X) communication for multi-agent sensor fusion. However, most existing methods rely on single-modal data sharing, limiting fusion performance, particularly in heterogeneous sensor settings involving both LiDAR and cameras across vehicles and roadside units (RSUs). To address this, we propose Radian Glue Attention (RG-Attn), a lightweight and generalizable cross-modal fusion module that unifies intra-agent and inter-agent fusion via transformation-based coordinate alignment and a unified sampling/inversion strategy. RG-Attn efficiently aligns features through a radian-based attention constraint, operating column-wise on geometrically consistent regions to reduce overhead and preserve spatial coherence, thereby enabling accurate and robust fusion. Building upon RG-Attn, we propose three cooperative architectures. The first, Paint-To-Puzzle (PTP), prioritizes communication efficiency but assumes all agents have LiDAR, optionally paired with cameras. The second, Co-Sketching-Co-Coloring (CoS-CoCo), offers maximal flexibility, supporting any sensor setup (e.g., LiDAR-only, camera-only, or both) and enabling strong cross-modal generalization for real-world deployment. The third, Pyramid-RG-Attn Fusion (PRGAF), aims for peak detection accuracy with the highest computational overhead. Extensive evaluations on simulated and real-world datasets show our framework delivers state-of-the-art detection accuracy with high flexibility and efficiency. GitHub Link: https://github.com/LantaoLi/RG-Attn
- Abstract(参考訳): 協調認識は、V2X通信を多エージェントセンサー融合に活用することにより、自律運転を促進する。
しかし、既存のほとんどの手法は単一モードのデータ共有に依存しており、特にLiDARと車と路面ユニット(RSU)間のカメラを含む異種センサー設定において、核融合性能を制限している。
そこで本研究では,RG-Attn(Randian Glue Attention, RG-Attn)を提案する。このモジュールは,変換に基づく座標アライメントと統一サンプリング/インバージョン戦略により,エージェント内およびエージェント間融合を統一する軽量で一般化可能なクロスモーダル融合モジュールである。
RG-Attnは、Radianベースのアテンション制約を通じて効率よく特徴を整列し、幾何的に一貫した領域でカラム的に操作することでオーバーヘッドを減らし、空間コヒーレンスを保ち、正確でロバストな融合を可能にする。
RG-Attnをベースとした3つの協調型アーキテクチャを提案する。
1つ目はPaint-To-Puzzle(PTP)で、通信効率を優先するが、すべてのエージェントがLiDARを持ち、オプションでカメラとペアリングしていると仮定する。
第2のCo-Sketching-Co-Coloring(CoS-CoCo)は、最大柔軟性を提供し、センサーのセットアップ(例えば、LiDARのみ、カメラのみ、または両方)をサポートし、現実世界のデプロイに対して強力なクロスモーダルな一般化を可能にする。
3番目のPraamid-RG-Attn Fusion (PRGAF)は、計算オーバーヘッドが最も高いピーク検出精度を目指している。
シミュレーションおよび実世界のデータセットに対する大規模な評価は、我々のフレームワークが高い柔軟性と効率で最先端の検出精度を提供することを示している。
GitHub Link: https://github.com/LantaoLi/RG-Attn
関連論文リスト
- HeCoFuse: Cross-Modal Complementary V2X Cooperative Perception with Heterogeneous Sensors [10.154689913045447]
HeCoFuseは、センサーの混在する協調認識のために設計された統合フレームワークである。
HeCoFuseは、クロスモダリティのフィーチャーアライメントや非バランスな表現品質といった重要な課題に取り組むことができる。
実際のTUMTraf-V2Xデータセットの実験では、HeCoFuseは43.22%の3D mAPを達成した。
論文 参考訳(メタデータ) (2025-07-18T06:02:22Z) - AnyMAC: Cascading Flexible Multi-Agent Collaboration via Next-Agent Prediction [70.60422261117816]
本稿では,グラフ構造ではなくシーケンシャル構造を用いて,マルチエージェント協調を再考するフレームワークを提案する。
提案手法は,(1)各ステップで最も適したエージェントロールを選択するNext-Agent Predictionと,(2)各エージェントが前ステップから関連する情報にアクセスできるようにするNext-Context Selectionの2つの重要な方向に焦点を当てる。
論文 参考訳(メタデータ) (2025-06-21T18:34:43Z) - Is Discretization Fusion All You Need for Collaborative Perception? [5.44403620979893]
本稿では,Anchor-Centric paradigm for Collaborative Object Detection (ACCO)を提案する。
グリッド精度の問題を避け、より柔軟で効率的なアンカー中心の通信と融合を可能にする。
OPV2VおよびDair-V2Xデータセット上のACCOを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2025-03-18T06:25:03Z) - Integrating Extra Modality Helps Segmentor Find Camouflaged Objects Well [23.460400679372714]
MultiCOSは、セグメンテーション性能を改善するために、多様なデータモダリティを効果的に活用する新しいフレームワークである。
BFSerは、実データと擬似データの両方で既存のマルチモーダルベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-20T11:49:50Z) - AgentAlign: Misalignment-Adapted Multi-Agent Perception for Resilient Inter-Agent Sensor Correlations [8.916036880001734]
既存の研究は、マルチエージェント設定における脆弱なマルチセンサ相関を概観している。
AgentAlignは、現実世界の異種エージェントのクロスモダリティ機能アライメントフレームワークである。
多様な環境条件下での現実的なセンサの欠陥をシミュレートする新しいV2XSet-noiseデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-09T01:51:18Z) - CoMiX: Cross-Modal Fusion with Deformable Convolutions for HSI-X Semantic Segmentation [10.26122715098048]
CoMiXは非対称エンコーダデコーダアーキテクチャであり、HSI-Xセマンティックセマンティックセグメンテーションのための変形可能な畳み込み(DCN)を備えている。
CoMiXは、HSIおよびXデータから情報を抽出し、校正し、ヒューズするように設計されている。
論文 参考訳(メタデータ) (2024-11-13T21:00:28Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - MACP: Efficient Model Adaptation for Cooperative Perception [23.308578463976804]
協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。
提案手法は,協調観測を効果的に活用し,他の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T14:24:42Z) - BM2CP: Efficient Collaborative Perception with LiDAR-Camera Modalities [5.034692611033509]
我々は,LiDARとカメラを用いた協調認識パラダイムBM2CPを提案し,効率的なマルチモーダル認識を実現する。
センサーの1つ、同じまたは異なるタイプのエージェントが欠落している場合に対処することができる。
提案手法は,シミュレーションおよび実世界の自律走行シナリオにおいて,50倍の通信量で最先端の手法より優れる。
論文 参考訳(メタデータ) (2023-10-23T08:45:12Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。