論文の概要: V2X-M2C: Efficient Multi-Module Collaborative Perception with Two Connections
- arxiv url: http://arxiv.org/abs/2407.11546v1
- Date: Tue, 16 Jul 2024 09:51:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 15:42:36.533716
- Title: V2X-M2C: Efficient Multi-Module Collaborative Perception with Two Connections
- Title(参考訳): V2X-M2C:2つの接続を持つ効率的な多モジュール協調知覚
- Authors: Hyunchul Bae, Minhee Kang, Heejin Ahn,
- Abstract要約: 複数モジュールからなる協調認識モデル $textbfV2X-M2C$ を導入する。
実験により、V2X-M2Cは最先端の知覚性能を達成することが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate improving the perception performance of autonomous vehicles through communication with other vehicles and road infrastructures. To this end, we introduce a collaborative perception model $\textbf{V2X-M2C}$, consisting of multiple modules, each generating inter-agent complementary information, spatial global context, and spatial local information. Inspired by the question of why most existing architectures are sequential, we analyze both the $\textit{sequential}$ and $\textit{parallel}$ connections of the modules. The sequential connection synergizes the modules, whereas the parallel connection independently improves each module. Extensive experiments demonstrate that V2X-M2C achieves state-of-the-art perception performance, increasing the detection accuracy by 8.00% to 10.87% and decreasing the FLOPs by 42.81% to 52.64%.
- Abstract(参考訳): 本稿では、他の車両や道路インフラとの通信による自動運転車の認識性能の向上について検討する。
この目的のために、複数のモジュールからなる協調認識モデル$\textbf{V2X-M2C}$を導入し、それぞれがエージェント間補完情報、空間的グローバルコンテキスト、空間的局所情報を生成する。
既存のアーキテクチャがなぜシーケンシャルなのかという疑問に触発され、$\textit{sequential}$と$\textit{parallel}$モジュールの接続の両方を分析します。
逐次接続はモジュールを相乗化するが、並列接続は各モジュールを独立的に改善する。
大規模な実験により、V2X-M2Cは最先端の知覚性能を達成し、検出精度は8.00%から10.87%に向上し、FLOPは42.81%から52.64%に低下した。
関連論文リスト
- P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - End-to-End Autonomous Driving through V2X Cooperation [23.44597411612664]
先駆的な協調自動運転フレームワークUniV2Xを紹介する。
UniV2Xは様々なビューにまたがるすべてのキー駆動モジュールをシームレスに統合ネットワークに統合する。
論文 参考訳(メタデータ) (2024-03-31T15:22:11Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Extracting Motion and Appearance via Inter-Frame Attention for Efficient
Video Frame Interpolation [46.23787695590861]
動作と外観情報を統一操作により明示的に抽出する新しいモジュールを提案する。
具体的には、フレーム間注目における情報処理を再考し、その注目マップを外観特徴強調と動き情報抽出の両方に再利用する。
固定時間と任意時間の両方において,本手法は各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-01T12:00:15Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - Multi-task UNet architecture for end-to-end autonomous driving [0.0]
本稿では,MTUNetアーキテクチャと制御アルゴリズムを統合したエンドツーエンド駆動モデルを提案する。
エンド・ツー・エンド駆動システムの総合的、動的、リアルタイムな性能を評価するための定量的尺度を提供し、MTUNetの安全性と解釈性を提供する。
論文 参考訳(メタデータ) (2021-12-16T15:35:15Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - RelationTrack: Relation-aware Multiple Object Tracking with Decoupled
Representation [3.356734463419838]
既存のオンラインマルチオブジェクトトラッキング(MOT)アルゴリズムは、しばしば2つのサブタスク、検出および再識別(ReID)で構成されています。
推論速度を高め、複雑さを減らすために、現在のメソッドは一般的にこれらの二重サブタスクを統一されたフレームワークに統合します。
学習した表現を検出特異的およびReID固有の埋め込みに分離するGlobal Context Disentangling(GCD)というモジュールを考案した。
この制約を解決するために,トランスコーダの強力な推論能力と変形可能な注意を組み合わせることで,誘導トランス(gte)と呼ばれるモジュールを開発した。
論文 参考訳(メタデータ) (2021-05-10T13:00:40Z) - A Co-Interactive Transformer for Joint Slot Filling and Intent Detection [61.109486326954205]
音声言語理解システム(SLU)を構築する上では,インテント検出とスロットフィリングが主要な2つのタスクである。
以前の研究では、2つのタスクを個別にモデル化するか、インテントからスロットへの単一の情報フローのみを考慮していた。
本稿では,2つのタスク間の相互影響を同時に検討するコ・インターアクティブ・トランスフォーマーを提案する。
論文 参考訳(メタデータ) (2020-10-08T10:16:52Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。