論文の概要: Pragmatic Heterogeneous Collaborative Perception via Generative Communication Mechanism
- arxiv url: http://arxiv.org/abs/2510.19618v3
- Date: Mon, 03 Nov 2025 02:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 18:19:02.810244
- Title: Pragmatic Heterogeneous Collaborative Perception via Generative Communication Mechanism
- Title(参考訳): 生成的コミュニケーション機構による実用的異種協調知覚
- Authors: Junfei Zhou, Penglin Dai, Quanmin Wei, Bingyi Liu, Xiao Wu, Jianping Wang,
- Abstract要約: 異種マルチエージェントシステム間のシームレスな認識を容易にする新しいジェネレーティブコミュニケーション機構(GenComm)を提案する。
OPV2V-H、DAIR-V2X、V2X-Realデータセットで実施された実験は、GenCommが既存の最先端手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 14.40993352402385
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-agent collaboration enhances the perception capabilities of individual agents through information sharing. However, in real-world applications, differences in sensors and models across heterogeneous agents inevitably lead to domain gaps during collaboration. Existing approaches based on adaptation and reconstruction fail to support pragmatic heterogeneous collaboration due to two key limitations: (1) Intrusive retraining of the encoder or core modules disrupts the established semantic consistency among agents; and (2) accommodating new agents incurs high computational costs, limiting scalability. To address these challenges, we present a novel Generative Communication mechanism (GenComm) that facilitates seamless perception across heterogeneous multi-agent systems through feature generation, without altering the original network, and employs lightweight numerical alignment of spatial information to efficiently integrate new agents at minimal cost. Specifically, a tailored Deformable Message Extractor is designed to extract spatial message for each collaborator, which is then transmitted in place of intermediate features. The Spatial-Aware Feature Generator, utilizing a conditional diffusion model, generates features aligned with the ego agent's semantic space while preserving the spatial information of the collaborators. These generated features are further refined by a Channel Enhancer before fusion. Experiments conducted on the OPV2V-H, DAIR-V2X and V2X-Real datasets demonstrate that GenComm outperforms existing state-of-the-art methods, achieving an 81% reduction in both computational cost and parameter count when incorporating new agents. Our code is available at https://github.com/jeffreychou777/GenComm.
- Abstract(参考訳): マルチエージェントコラボレーションは、情報共有を通じて個々のエージェントの知覚能力を高める。
しかし、現実世界のアプリケーションでは、異種エージェント間のセンサーとモデルの違いは、必然的に協調中にドメインギャップを生じさせる。
1)エンコーダやコアモジュールの侵入的再訓練はエージェント間のセマンティックな一貫性を阻害し,(2)新しいエージェントの調整は高い計算コストを発生させ,スケーラビリティを制限している。
これらの課題に対処するために,特徴生成による異種マルチエージェントシステム間のシームレスな認識を容易にする新しいジェネレーティブコミュニケーション機構(GenComm)を提案し,空間情報の軽量な数値アライメントを用いて,新しいエージェントを低コストで効率的に統合する。
具体的には、調整されたデフォルマブルメッセージエクストラクタは、各コラボレータの空間メッセージを抽出し、中間機能の代わりに送信するように設計されている。
条件付き拡散モデルを利用した空間認識特徴生成装置は、協力者の空間情報を保存しつつ、エゴエージェントの意味空間に沿った特徴を生成する。
これらの特徴は核融合前にチャネルエンハンサーによってさらに洗練される。
OPV2V-H、DAIR-V2X、V2X-Realデータセットで実施された実験では、GenCommは既存の最先端手法よりも優れており、新しいエージェントを組み込む際に計算コストとパラメータ数を81%削減する。
私たちのコードはhttps://github.com/jeffreychou777/GenComm.comから入手可能です。
関連論文リスト
- Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI [1.8244641115869653]
エージェントのフェデレーション(FoA)は,マルチエージェントのコーディネーションを動的かつ能力駆動的なコラボレーションに変換する分散オーケストレーションフレームワークである。
FoAは、セマンティック埋め込みを通じてエージェント機能を検索可能にするマシン可読プロファイルであるVersioned Capability Vectors (VCVs)を導入した。
単一モデルベースラインよりも13倍の改善が見られ、クラスタリング強化労働力は複雑な推論タスクに特に有効である。
論文 参考訳(メタデータ) (2025-09-24T14:38:06Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception [14.450341173771486]
Radian Glue Attention (RG-Attn) は軽量で一般化可能なクロスモーダル核融合モジュールである。
RG-Attnは、ラジアンベースの注意制約を通じて、効率的に特徴を整列する。
Paint-To-Puzzle (PTP)は通信効率を優先するが、すべてのエージェントがカメラを持っていると仮定する。
CoS-CoCoは最大柔軟性を提供し、あらゆるセンサー設定をサポートする。
Pyramid-RG-Attn Fusion (PRGAF) は計算オーバーヘッドが最も高いピーク検出精度を目指している。
論文 参考訳(メタデータ) (2025-01-28T09:08:31Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - An Extensible Framework for Open Heterogeneous Collaborative Perception [58.70875361688463]
協調的な知覚は、単一エージェントの知覚の限界を緩和することを目的としている。
本稿では,新しい異種エージェントを協調認識に適応させる方法を提案する。
本稿では,新しい協調認識フレームワークであるHeterogeneous ALliance(HEAL)を提案する。
論文 参考訳(メタデータ) (2024-01-25T05:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。