Fugu-MT 論文翻訳(概要): CoCMT: Communication-Efficient Cross-Modal Transformer for Collaborative Perception

論文の概要: CoCMT: Communication-Efficient Cross-Modal Transformer for Collaborative Perception

arxiv url: http://arxiv.org/abs/2503.13504v1
Date: Thu, 13 Mar 2025 06:41:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:11.542309
Title: CoCMT: Communication-Efficient Cross-Modal Transformer for Collaborative Perception
Title（参考訳）: CoCMT:協調知覚のための通信効率の良いクロスモーダルトランス
Authors: Rujia Wang, Xiangbo Gao, Hao Xiang, Runsheng Xu, Zhengzhong Tu,
Abstract要約: マルチエージェント協調知覚は、ロボット知覚タスクを協調的に行うために、知覚情報を共有することによって、各エージェントの能力を高める。既存の代表的な協調認識システムは、大量の非臨界情報を含む中間特徴写像を伝達する。本稿では,オブジェクトクエリをベースとした協調フレームワークであるCoCMTを紹介し,重要な特徴を選択的に抽出し伝達することによって,通信帯域幅を最大化する。
参考スコア（独自算出の注目度）: 14.619784179608361
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent collaborative perception enhances each agent perceptual capabilities by sharing sensing information to cooperatively perform robot perception tasks. This approach has proven effective in addressing challenges such as sensor deficiencies, occlusions, and long-range perception. However, existing representative collaborative perception systems transmit intermediate feature maps, such as bird-eye view (BEV) representations, which contain a significant amount of non-critical information, leading to high communication bandwidth requirements. To enhance communication efficiency while preserving perception capability, we introduce CoCMT, an object-query-based collaboration framework that optimizes communication bandwidth by selectively extracting and transmitting essential features. Within CoCMT, we introduce the Efficient Query Transformer (EQFormer) to effectively fuse multi-agent object queries and implement a synergistic deep supervision to enhance the positive reinforcement between stages, leading to improved overall performance. Experiments on OPV2V and V2V4Real datasets show CoCMT outperforms state-of-the-art methods while drastically reducing communication needs. On V2V4Real, our model (Top-50 object queries) requires only 0.416 Mb bandwidth, 83 times less than SOTA methods, while improving AP70 by 1.1 percent. This efficiency breakthrough enables practical collaborative perception deployment in bandwidth-constrained environments without sacrificing detection accuracy.
Abstract（参考訳）: マルチエージェント協調知覚は、知覚情報を共有してロボット知覚タスクを協調的に行うことにより、各エージェントの知覚能力を高める。このアプローチは、センサーの欠陥、オクルージョン、長距離知覚といった課題に対処する上で有効であることが証明されている。しかし、既存の代表的協調認識システムは、バードアイビュー(BEV)表現などの中間的特徴マップを送信しており、これはかなりの量の非クリティカル情報を含んでいるため、通信帯域幅の要求が高い。認識能力を維持しつつ通信効率を向上させるために,本質的な特徴を選択的に抽出し伝達することにより,通信帯域幅を最適化するオブジェクトクエリベースの協調フレームワークであるCoCMTを導入する。 CoCMT内では,マルチエージェントオブジェクトクエリを効果的に融合するEQFormer(Efficient Query Transformer)が導入された。 OPV2VとV2V4Realデータセットの実験では、CoCMTは最先端の手法よりも優れており、通信要求を大幅に削減している。 V2V4Realでは、我々のモデル(Top-50オブジェクトクエリ)はわずか0.416Mbの帯域しか必要とせず、SOTAメソッドの83倍も小さく、AP70を1.1%改善する。この効率のブレークスルーにより、検出精度を犠牲にすることなく、帯域制限された環境における実用的な協調認識の展開が可能になる。

関連論文リスト

Is Intermediate Fusion All You Need for UAV-based Collaborative Perception? [1.8689461238197957]
本稿では, LIF と呼ばれる, 遠隔期融合に基づくコミュニケーション効率の高い協調認識フレームワークを提案する。視覚誘導型位置埋め込み(VPE)とボックスベースの仮想拡張機能(BoBEV)を活用し,様々なエージェントからの補完情報を効果的に統合する。実験結果から,通信帯域を最小化して通信性能を向上し,その有効性と実用性を実証した。
論文参考訳（メタデータ） (2025-04-30T16:22:14Z)
Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [49.77734021302196]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。その結果,TOFCはデータ転送オーバヘッドの最大60%削減,システム遅延の50%削減を実現している。
論文参考訳（メタデータ） (2025-03-17T08:37:22Z)
CoSDH: Communication-Efficient Collaborative Perception via Supply-Demand Awareness and Intermediate-Late Hybridization [23.958663737034318]
本稿では,供給需要の認識と中間段階のハイブリダイゼーションに基づく,コミュニケーション効率の高い協調認識フレームワークを提案する。シミュレーションと実世界のシナリオを含む複数のデータセットの実験は、mymethodnameが最先端の検出精度と最適な帯域幅のトレードオフを達成することを実証している。
論文参考訳（メタデータ） (2025-03-05T12:02:04Z)
CoopDETR: A Unified Cooperative Perception Framework for 3D Detection via Object Query [21.010741892266136]
CoopDETRは、オブジェクトクエリを介してオブジェクトレベルの特徴協調を導入する新しい協調認識フレームワークである。本フレームワークは,オブジェクトクエリに生センサデータを効率的にエンコードする単一エージェントクエリ生成と,クロスエージェントクエリ融合という2つの重要なモジュールで構成されている。 OPV2VとV2XSetデータセットの実験により、CoopDETRは最先端の性能を達成し、送信コストを従来手法の1/782に大幅に削減した。
論文参考訳（メタデータ） (2025-02-26T17:09:51Z)
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文参考訳（メタデータ） (2024-11-25T07:56:13Z)
Semantic Communication for Cooperative Perception using HARQ [51.148203799109304]
我々は重要セマンティック情報を抽出するために重要地図を活用し、協調的な知覚セマンティックコミュニケーションフレームワークを導入する。周波数分割多重化(OFDM)とチャネル推定と等化戦略を併用して,時間変化によるマルチパスフェーディングによる課題に対処する。我々は,ハイブリッド自動繰り返し要求(HARQ)の精神において,我々の意味コミュニケーションフレームワークと統合された新しい意味エラー検出手法を提案する。
論文参考訳（メタデータ） (2024-08-29T08:53:26Z)
IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception [9.117534139771738]
自律運転の分野で広く認知されている技術として、マルチエージェント協調認識が出現している。現在のコラボレーティブな認識は、主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。本研究は,視覚的協調知覚のためのインスタンスレベルの融合変換器を提案する。
論文参考訳（メタデータ） (2024-07-13T11:38:15Z)
Pragmatic Communication in Multi-Agent Collaborative Perception [80.14322755297788]
協調的な知覚は、知覚能力とコミュニケーションコストのトレードオフをもたらす。 PragCommは2つの重要なコンポーネントを持つマルチエージェント協調認識システムである。 PragCommは、32.7K以上の通信量で従来手法より一貫して優れていた。
論文参考訳（メタデータ） (2024-01-23T11:58:08Z)
Practical Collaborative Perception: A Framework for Asynchronous and Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文参考訳（メタデータ） (2023-07-04T03:49:42Z)
Interruption-Aware Cooperative Perception for V2X Communication-Aided Autonomous Driving [49.42873226593071]
本稿では,V2X通信支援自律運転のためのV2X通信入出力対応協調知覚(V2X-INCOP)を提案する。我々は、過去の協力情報を用いて、割り込みによる行方不明情報を復元し、割り込み問題の影響を軽減する。 3つの公的な協調認識データセットの実験から,コミュニケーション中断が協調知覚に与える影響を緩和するために提案手法が有効であることが示された。
論文参考訳（メタデータ） (2023-04-24T04:59:13Z)
ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement [80.94378602238432]
粗大な処理で対応性を見出すことにより、ECO-TR(Correspondence Efficient Transformer)と呼ばれる効率的な構造を提案する。これを実現するために、複数の変圧器ブロックは段階的に連結され、予測された座標を徐々に洗練する。種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法の優位性を実証している。
論文参考訳（メタデータ） (2022-09-25T13:05:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。