論文の概要: Is Discretization Fusion All You Need for Collaborative Perception?
- arxiv url: http://arxiv.org/abs/2503.13946v1
- Date: Tue, 18 Mar 2025 06:25:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:16:04.786941
- Title: Is Discretization Fusion All You Need for Collaborative Perception?
- Title(参考訳): 差別化の融合はコラボレーションの知覚に必要か?
- Authors: Kang Yang, Tianci Bu, Lantao Li, Chunxu Li, Yongcai Wang, Deying Li,
- Abstract要約: 本稿では,Anchor-Centric paradigm for Collaborative Object Detection (ACCO)を提案する。
グリッド精度の問題を避け、より柔軟で効率的なアンカー中心の通信と融合を可能にする。
OPV2VおよびDair-V2Xデータセット上のACCOを評価するための総合的な実験を行った。
- 参考スコア(独自算出の注目度): 5.44403620979893
- License:
- Abstract: Collaborative perception in multi-agent system enhances overall perceptual capabilities by facilitating the exchange of complementary information among agents. Current mainstream collaborative perception methods rely on discretized feature maps to conduct fusion, which however, lacks flexibility in extracting and transmitting the informative features and can hardly focus on the informative features during fusion. To address these problems, this paper proposes a novel Anchor-Centric paradigm for Collaborative Object detection (ACCO). It avoids grid precision issues and allows more flexible and efficient anchor-centric communication and fusion. ACCO is composed by three main components: (1) Anchor featuring block (AFB) that targets to generate anchor proposals and projects prepared anchor queries to image features. (2) Anchor confidence generator (ACG) is designed to minimize communication by selecting only the features in the confident anchors to transmit. (3) A local-global fusion module, in which local fusion is anchor alignment-based fusion (LAAF) and global fusion is conducted by spatial-aware cross-attention (SACA). LAAF and SACA run in multi-layers, so agents conduct anchor-centric fusion iteratively to adjust the anchor proposals. Comprehensive experiments are conducted to evaluate ACCO on OPV2V and Dair-V2X datasets, which demonstrate ACCO's superiority in reducing the communication volume, and in improving the perception range and detection performances. Code can be found at: \href{https://github.com/sidiangongyuan/ACCO}{https://github.com/sidiangongyuan/ACCO}.
- Abstract(参考訳): 多エージェントシステムにおける協調的知覚は、エージェント間の相補的な情報の交換を容易にすることによって、全体的な知覚能力を高める。
現在の主流の協調認識法は、融合を行うための離散化された特徴マップに依存しているが、情報的特徴の抽出と伝達の柔軟性に欠けており、融合中の情報的特徴にほとんど焦点をあてることができない。
本稿では,これらの問題に対処するため,新しいAnchor-Centric paradigm for Collaborative Object Detection (ACCO)を提案する。
グリッド精度の問題を避け、より柔軟で効率的なアンカー中心の通信と融合を可能にする。
ACCOは、(1)アンカー提案を生成するためにターゲットとするアンカー機能ブロック(AFB)と、画像特徴にアンカークエリを準備するプロジェクトという3つの主要コンポーネントで構成されている。
2) アンカー信頼発生器 (ACG) は, 送信するアンカーの特徴のみを選択することで, 通信を最小化するように設計されている。
(3)局所核融合モジュールは局所核融合をアンカーアライメントベース核融合(LAAF)、大域核融合を空間認識クロスアテンション(SACA)により行う。
LAAFとSACAは複数層で動作するため、エージェントはアンカー中心核融合を反復的に実行し、アンカー提案を調整する。
OPV2VデータセットとDair-V2XデータセットのACCOを評価するための総合的な実験を行い、通信量削減におけるACCOの優位性を実証し、認識範囲と検出性能の向上を図った。
コードは以下の通りである。 \href{https://github.com/sidiangongyuan/ACCO}{https://github.com/sidiangongyuan/ACCO}。
関連論文リスト
- RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception [12.90369816793173]
車間通信(V2X)は、単一エージェントシステムの知覚限界を克服する最適なソリューションを提供する。
PTP(Paint-To-Puzzle)とCo-Sketching-Co-Co(Co-Sketching-Co-Co)という2つの異なるアーキテクチャを提案する。
提案手法は,実・模擬協調認識データセット上でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-01-28T09:08:31Z) - HEAD: A Bandwidth-Efficient Cooperative Perception Approach for Heterogeneous Connected and Autonomous Vehicles [9.10239345027499]
HEADは3次元物体検出ネットワークにおける分類と回帰ヘッドの特徴を融合する手法である。
実験の結果,HEADは通信帯域幅と知覚性能を効果的にバランスさせる融合法であることがわかった。
論文 参考訳(メタデータ) (2024-08-27T22:05:44Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - What Makes Good Collaborative Views? Contrastive Mutual Information Maximization for Multi-Agent Perception [52.41695608928129]
マルチエージェント認識(MAP)は、複数のソースからのデータを解釈することで、自律システムが複雑な環境を理解することを可能にする。
本稿では,MAPにおける協調的視点の「良い」特性を探求することに焦点を当てた中間的協調について検討する。
中間コラボレーションのための新しいフレームワークCMiMCを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:18:55Z) - Camera-LiDAR Fusion with Latent Contact for Place Recognition in
Challenging Cross-Scenes [5.957306851772919]
本稿では,画像,点雲,融合枝のカスケードからなる新しい3チャンネルプレースディスクリプタを提案する。
KITTI、NCLT、USVInland、およびキャンパスのデータセットの実験は、提案された場所記述子が最先端のアプローチであることを示している。
論文 参考訳(メタデータ) (2023-10-16T13:06:55Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Plug-and-Play Regulators for Image-Text Matching [76.28522712930668]
微細な対応と視覚的セマンティックなアライメントの爆発は、画像とテキストのマッチングにおいて大きな可能性を秘めている。
我々は、メッセージ出力を効率的にエンコードして、コンテキストを自動生成し、モーダル表現を集約する、シンプルだが非常に効果的な2つのレギュレータを開発した。
MSCOCOとFlickr30Kデータセットの実験は、複数のモデルで印象的で一貫したR@1ゲインをもたらすことができることを実証している。
論文 参考訳(メタデータ) (2023-03-23T15:42:05Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。