論文の概要: V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer
- arxiv url: http://arxiv.org/abs/2203.10638v1
- Date: Sun, 20 Mar 2022 20:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 07:02:36.048136
- Title: V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer
- Title(参考訳): V2X-ViT:視覚変換器を用いた車両間協調認識
- Authors: Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi
Ma
- Abstract要約: 我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
- 参考スコア(独自算出の注目度): 58.71845618090022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the application of Vehicle-to-Everything (V2X)
communication to improve the perception performance of autonomous vehicles. We
present a robust cooperative perception framework with V2X communication using
a novel vision Transformer. Specifically, we build a holistic attention model,
namely V2X-ViT, to effectively fuse information across on-road agents (i.e.,
vehicles and infrastructure). V2X-ViT consists of alternating layers of
heterogeneous multi-agent self-attention and multi-scale window self-attention,
which captures inter-agent interaction and per-agent spatial relationships.
These key modules are designed in a unified Transformer architecture to handle
common V2X challenges, including asynchronous information sharing, pose errors,
and heterogeneity of V2X components. To validate our approach, we create a
large-scale V2X perception dataset using CARLA and OpenCDA. Extensive
experimental results demonstrate that V2X-ViT sets new state-of-the-art
performance for 3D object detection and achieves robust performance even under
harsh, noisy environments. The dataset, source code, and trained models will be
open-sourced.
- Abstract(参考訳): 本稿では、車両間通信(v2x)の自動運転車の認識性能向上への応用について検討する。
本稿では,新しい視覚変換器を用いたV2X通信を用いたロバストな協調認識フレームワークを提案する。
具体的には、道路上のエージェント(車やインフラなど)間で情報を効果的に融合するために、総合的な注意モデル、すなわちV2X-ViTを構築します。
V2X-ViTは異質なマルチエージェント・セルフアテンションとマルチスケールウィンドウ・セルフアテンションの交互層で構成され、エージェント間相互作用とエージェントごとの空間関係をキャプチャする。
これらの重要なモジュールは、非同期情報共有、ポーズエラー、V2Xコンポーネントの不均一性など、共通のV2X課題を処理するために、統合トランスフォーマーアーキテクチャで設計されている。
提案手法を検証するため,CARLAとOpenCDAを用いた大規模V2X知覚データセットを作成する。
大規模実験により,V2X-ViTは3次元物体検出のための最先端性能を新たに設定し,厳しい騒音環境下においても頑健な性能を実現することが示された。
データセット、ソースコード、トレーニングされたモデルはオープンソースになる。
関連論文リスト
- LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - CooPre: Cooperative Pretraining for V2X Cooperative Perception [47.00472259100765]
本稿では,V2X協調認識のための自己教師付き学習手法を提案する。
膨大な量のラベルのない3D V2Xデータを用いて知覚性能を向上させる。
論文 参考訳(メタデータ) (2024-08-20T23:39:26Z) - DI-V2X: Learning Domain-Invariant Representation for
Vehicle-Infrastructure Collaborative 3D Object Detection [78.09431523221458]
DI-V2Xは、新しい蒸留フレームワークを通じてドメイン不変表現を学習することを目的としている。
DI-V2Xは、ドメイン混合インスタンス拡張(DMA)モジュール、プログレッシブドメイン不変蒸留(PDD)モジュール、ドメイン適応融合(DAF)モジュールの3つの必須成分から構成される。
論文 参考訳(メタデータ) (2023-12-25T14:40:46Z) - Learning Cooperative Trajectory Representations for Motion Forecasting [4.380073528690906]
協調情報から動きと相互作用の特徴を利用するための予測指向表現パラダイムを提案する。
V2X-Graphは、協調動作予測のための解釈可能かつエンドツーエンドな特徴量融合を実現するための代表的なフレームワークである。
車両から全車まで(V2X)のシナリオを更に評価するため,V2X-Traj を用いたV2X運動予測データセットを構築した。
論文 参考訳(メタデータ) (2023-11-01T08:53:05Z) - HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with
vision transformer [4.957079586254435]
HM-ViTは、最初の統合マルチエージェントヘテロモーダル協調認識フレームワークである。
3Dオブジェクトを協調的に予測し、様々な数と種類のエージェントと高ダイナミックな車車間コラボレーション(V2V)を行う。
論文 参考訳(メタデータ) (2023-04-20T20:09:59Z) - V2V4Real: A Real-world Large-scale Dataset for Vehicle-to-Vehicle
Cooperative Perception [49.7212681947463]
車両から車両への協調認識システム(V2V)は、自動運転産業に革命をもたらす大きな可能性を秘めている。
V2V4Realは、V2V知覚のための世界初の大規模実世界のマルチモーダルデータセットである。
我々のデータセットは、20KのLiDARフレーム、40KのRGBフレーム、240Kの注釈付き5クラスの3Dバウンディングボックス、HDMapからなる410kmの走行領域をカバーしている。
論文 参考訳(メタデータ) (2023-03-14T02:49:20Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - V2X-Sim: A Virtual Collaborative Perception Dataset for Autonomous
Driving [26.961213523096948]
V2X(V2X)は、車両と周囲のあらゆる物体の協調を意味する。
V2X-Simデータセットは、自動運転における最初の大規模協調認識データセットである。
論文 参考訳(メタデータ) (2022-02-17T05:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。