論文の概要: CoCMT: Communication-Efficient Cross-Modal Transformer for Collaborative Perception
- arxiv url: http://arxiv.org/abs/2503.13504v1
- Date: Thu, 13 Mar 2025 06:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:19.851067
- Title: CoCMT: Communication-Efficient Cross-Modal Transformer for Collaborative Perception
- Title(参考訳): CoCMT:協調知覚のための通信効率の良いクロスモーダルトランス
- Authors: Rujia Wang, Xiangbo Gao, Hao Xiang, Runsheng Xu, Zhengzhong Tu,
- Abstract要約: マルチエージェント協調知覚は、ロボット知覚タスクを協調的に行うために、知覚情報を共有することによって、各エージェントの能力を高める。
既存の代表的な協調認識システムは、大量の非臨界情報を含む中間特徴写像を伝達する。
本稿では,オブジェクトクエリをベースとした協調フレームワークであるCoCMTを紹介し,重要な特徴を選択的に抽出し伝達することによって,通信帯域幅を最大化する。
- 参考スコア(独自算出の注目度): 14.619784179608361
- License:
- Abstract: Multi-agent collaborative perception enhances each agent perceptual capabilities by sharing sensing information to cooperatively perform robot perception tasks. This approach has proven effective in addressing challenges such as sensor deficiencies, occlusions, and long-range perception. However, existing representative collaborative perception systems transmit intermediate feature maps, such as bird-eye view (BEV) representations, which contain a significant amount of non-critical information, leading to high communication bandwidth requirements. To enhance communication efficiency while preserving perception capability, we introduce CoCMT, an object-query-based collaboration framework that optimizes communication bandwidth by selectively extracting and transmitting essential features. Within CoCMT, we introduce the Efficient Query Transformer (EQFormer) to effectively fuse multi-agent object queries and implement a synergistic deep supervision to enhance the positive reinforcement between stages, leading to improved overall performance. Experiments on OPV2V and V2V4Real datasets show CoCMT outperforms state-of-the-art methods while drastically reducing communication needs. On V2V4Real, our model (Top-50 object queries) requires only 0.416 Mb bandwidth, 83 times less than SOTA methods, while improving AP70 by 1.1 percent. This efficiency breakthrough enables practical collaborative perception deployment in bandwidth-constrained environments without sacrificing detection accuracy.
- Abstract(参考訳): マルチエージェント協調知覚は、知覚情報を共有してロボット知覚タスクを協調的に行うことにより、各エージェントの知覚能力を高める。
このアプローチは、センサーの欠陥、オクルージョン、長距離知覚といった課題に対処する上で有効であることが証明されている。
しかし、既存の代表的協調認識システムは、バードアイビュー(BEV)表現などの中間的特徴マップを送信しており、これはかなりの量の非クリティカル情報を含んでいるため、通信帯域幅の要求が高い。
認識能力を維持しつつ通信効率を向上させるために,本質的な特徴を選択的に抽出し伝達することにより,通信帯域幅を最適化するオブジェクトクエリベースの協調フレームワークであるCoCMTを導入する。
CoCMT内では,マルチエージェントオブジェクトクエリを効果的に融合するEQFormer(Efficient Query Transformer)が導入された。
OPV2VとV2V4Realデータセットの実験では、CoCMTは最先端の手法よりも優れており、通信要求を大幅に削減している。
V2V4Realでは、我々のモデル(Top-50オブジェクトクエリ)はわずか0.416Mbの帯域しか必要とせず、SOTAメソッドの83倍も小さく、AP70を1.1%改善する。
この効率のブレークスルーにより、検出精度を犠牲にすることなく、帯域制限された環境における実用的な協調認識の展開が可能になる。
関連論文リスト
- mmCooper: A Multi-agent Multi-stage Communication-efficient and Collaboration-robust Cooperative Perception Framework [12.896563384343889]
mmCooperは、新しいマルチエージェント、マルチステージ、コミュニケーション効率、コラボロバストな協調認識フレームワークである。
実世界およびシミュレーションデータセットの広範な実験を通して,mmCooperの有効性を検証する。
論文 参考訳(メタデータ) (2025-01-21T16:34:16Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。
周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。
我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文 参考訳(メタデータ) (2024-08-29T08:53:26Z) - IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception [9.117534139771738]
自律運転の分野で広く認知されている技術として、マルチエージェント協調認識が出現している。
現在のコラボレーティブな認識は、主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。
本研究は,視覚的協調知覚のためのインスタンスレベルの融合変換器を提案する。
論文 参考訳(メタデータ) (2024-07-13T11:38:15Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Effective Communication with Dynamic Feature Compression [25.150266946722]
本研究では,タスクを制御するロボットに対して,観察者が知覚データを伝達しなければならないプロトタイパルシステムについて検討する。
本稿では, 量子化レベルを動的に適応させるために, アンサンブルベクトル量子化変分オートエンコーダ(VQ-VAE)を符号化し, 深層強化学習(DRL)エージェントを訓練する。
我々は、よく知られたCartPole参照制御問題に対して提案手法を検証し、大幅な性能向上を得た。
論文 参考訳(メタデータ) (2024-01-29T15:35:05Z) - Pragmatic Communication in Multi-Agent Collaborative Perception [80.14322755297788]
協調的な知覚は、知覚能力とコミュニケーションコストのトレードオフをもたらす。
PragCommは2つの重要なコンポーネントを持つマルチエージェント協調認識システムである。
PragCommは、32.7K以上の通信量で従来手法より一貫して優れていた。
論文 参考訳(メタデータ) (2024-01-23T11:58:08Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - Interruption-Aware Cooperative Perception for V2X Communication-Aided
Autonomous Driving [49.42873226593071]
本稿では,V2X通信支援自律運転のためのV2X通信入出力対応協調知覚(V2X-INCOP)を提案する。
我々は、過去の協力情報を用いて、割り込みによる行方不明情報を復元し、割り込み問題の影響を軽減する。
3つの公的な協調認識データセットの実験から,コミュニケーション中断が協調知覚に与える影響を緩和するために提案手法が有効であることが示された。
論文 参考訳(メタデータ) (2023-04-24T04:59:13Z) - Semantic and Effective Communication for Remote Control Tasks with
Dynamic Feature Compression [23.36744348465991]
ロボットの群れの調整と産業システムのリモート無線制御は、5Gおよびそれ以上のシステムの主要なユースケースである。
本研究では,タスクを制御するアクターに知覚データを伝達しなければならないプロトタイパルシステムについて考察する。
本稿では,量子化レベルを動的に適応させるために,アンサンブルベクトル量子化変分オートエンコーダ(VQ-VAE)を符号化し,深層強化学習(DRL)エージェントを訓練する。
論文 参考訳(メタデータ) (2023-01-14T11:43:56Z) - ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。
これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。
種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-09-25T13:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。