論文の概要: GT-Space: Enhancing Heterogeneous Collaborative Perception with Ground Truth Feature Space
- arxiv url: http://arxiv.org/abs/2603.19308v1
- Date: Fri, 13 Mar 2026 14:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.767367
- Title: GT-Space: Enhancing Heterogeneous Collaborative Perception with Ground Truth Feature Space
- Title(参考訳): GT空間:地層特徴空間による異種協調知覚の促進
- Authors: Wentao Wang, Haoran Xu, Guang Tan,
- Abstract要約: 自律運転において、マルチエージェント協調知覚は、エージェントが知覚データを共有できるようにすることで、知覚能力を高める。
既存のアプローチでは、ペアワイズ機能アライメントのためにエンコーダをリトレーニングしたり、インタプリタモジュールを設計する必要がしばしばある。
異種エージェントのための柔軟でスケーラブルな協調認識フレームワークである Em GT-Space を提案する。
- 参考スコア(独自算出の注目度): 30.468574984070894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In autonomous driving, multi-agent collaborative perception enhances sensing capabilities by enabling agents to share perceptual data. A key challenge lies in handling {\em heterogeneous} features from agents equipped with different sensing modalities or model architectures, which complicates data fusion. Existing approaches often require retraining encoders or designing interpreter modules for pairwise feature alignment, but these solutions are not scalable in practice. To address this, we propose {\em GT-Space}, a flexible and scalable collaborative perception framework for heterogeneous agents. GT-Space constructs a common feature space from ground-truth labels, providing a unified reference for feature alignment. With this shared space, agents only need a single adapter module to project their features, eliminating the need for pairwise interactions with other agents. Furthermore, we design a fusion network trained with contrastive losses across diverse modality combinations. Extensive experiments on simulation datasets (OPV2V and V2XSet) and a real-world dataset (RCooper) demonstrate that GT-Space consistently outperforms baselines in detection accuracy while delivering robust performance. Our code will be released at https://github.com/KingScar/GT-Space.
- Abstract(参考訳): 自律運転において、マルチエージェント協調知覚は、エージェントが知覚データを共有できるようにすることで、知覚能力を高める。
重要な課題は、データ融合を複雑にする異なるセンシングモードやモデルアーキテクチャを備えたエージェントからの機能を扱うことである。
既存のアプローチでは、ペアワイズ機能アライメントのためにエンコーダの再トレーニングやインタプリタモジュールの設計を必要とすることが多いが、実際には拡張性がない。
これを解決するために、異種エージェントのための柔軟でスケーラブルな協調認識フレームワークである {\em GT-Space} を提案する。
GT-Spaceは、基本構造ラベルから共通の特徴空間を構築し、特徴アライメントのための統一された参照を提供する。
この共有スペースでは、エージェントは機能のプロジェクションに1つのアダプタモジュールしか必要とせず、他のエージェントとのペアインタラクションが不要になる。
さらに,様々なモダリティの組み合わせにまたがるコントラスト損失を訓練した融合ネットワークを設計する。
シミュレーションデータセット(OPV2VとV2XSet)と実世界のデータセット(RCooper)に関する大規模な実験は、GT-Spaceが堅牢なパフォーマンスを提供しながら、検出精度においてベースラインを一貫して上回ることを示した。
私たちのコードはhttps://github.com/KingScar/GT-Space.orgでリリースされます。
関連論文リスト
- Linking Modality Isolation in Heterogeneous Collaborative Perception [41.68601421239159]
そこで我々は, 横断的特徴コード機能変換(FCF)によってモダリティを円滑に整列させるフレームワークであるCodeAlignを提案する。
CodeAlignはFCF翻訳を学び、特徴を他のモダリティの対応するコードにマッピングし、対象のコード空間の機能に復号する。
3つのモードを統合する場合、CodeAlignは事前アライメント手法のトレーニングパラメータの8%しか必要とせず、通信負荷を1024倍に減らし、OPV2VとDAIRV2Xの両方のデータセットにおける最先端の知覚性能を実現する。
論文 参考訳(メタデータ) (2026-02-28T12:09:08Z) - InterAgent: Physics-based Multi-agent Command Execution via Diffusion on Interaction Graphs [72.5651722107621]
InterAgentはテキスト駆動型物理ベースのマルチエージェントヒューマノイド制御のためのエンドツーエンドフレームワークである。
本稿では,マルチストリームブロックを備えた自己回帰拡散トランスフォーマーを提案する。
また,空間依存性の微粒化を明示的に捉えた対話グラフのエクスセプション表現を提案する。
論文 参考訳(メタデータ) (2025-12-08T10:46:01Z) - Pragmatic Heterogeneous Collaborative Perception via Generative Communication Mechanism [14.40993352402385]
異種マルチエージェントシステム間のシームレスな認識を容易にする新しいジェネレーティブコミュニケーション機構(GenComm)を提案する。
OPV2V-H、DAIR-V2X、V2X-Realデータセットで実施された実験は、GenCommが既存の最先端手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-10-22T14:15:20Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - STAMP: Scalable Task And Model-agnostic Collaborative Perception [24.890993164334766]
STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
論文 参考訳(メタデータ) (2025-01-24T16:27:28Z) - Self-Localized Collaborative Perception [49.86110931859302]
我々は,新しい自己局在型協調認識システムであるMathttCoBEVGlue$を提案する。
$mathttCoBEVGlue$は、エージェント間の相対的なポーズを提供する新しい空間アライメントモジュールである。
$mathttCoBEVGlue$は任意のローカライゼーションノイズとアタックの下で最先端の検出性能を達成する。
論文 参考訳(メタデータ) (2024-06-18T15:26:54Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Scalable Multi-agent Covering Option Discovery based on Kronecker Graphs [49.71319907864573]
本稿では,分解が容易なマルチエージェントスキル発見法を提案する。
我々のキーとなる考え方は、合同状態空間をクロネッカーグラフとして近似することであり、そのフィドラーベクトルを直接見積もることができる。
ラプラシアンスペクトルを直接計算することは、無限大の状態空間を持つタスクには難易度が高いことを考慮し、さらに本手法の深層学習拡張を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。