論文の概要: V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer
- arxiv url: http://arxiv.org/abs/2203.10638v1
- Date: Sun, 20 Mar 2022 20:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 07:02:36.048136
- Title: V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer
- Title(参考訳): V2X-ViT:視覚変換器を用いた車両間協調認識
- Authors: Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi
Ma
- Abstract要約: 我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
- 参考スコア(独自算出の注目度): 58.71845618090022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the application of Vehicle-to-Everything (V2X)
communication to improve the perception performance of autonomous vehicles. We
present a robust cooperative perception framework with V2X communication using
a novel vision Transformer. Specifically, we build a holistic attention model,
namely V2X-ViT, to effectively fuse information across on-road agents (i.e.,
vehicles and infrastructure). V2X-ViT consists of alternating layers of
heterogeneous multi-agent self-attention and multi-scale window self-attention,
which captures inter-agent interaction and per-agent spatial relationships.
These key modules are designed in a unified Transformer architecture to handle
common V2X challenges, including asynchronous information sharing, pose errors,
and heterogeneity of V2X components. To validate our approach, we create a
large-scale V2X perception dataset using CARLA and OpenCDA. Extensive
experimental results demonstrate that V2X-ViT sets new state-of-the-art
performance for 3D object detection and achieves robust performance even under
harsh, noisy environments. The dataset, source code, and trained models will be
open-sourced.
- Abstract(参考訳): 本稿では、車両間通信(v2x)の自動運転車の認識性能向上への応用について検討する。
本稿では,新しい視覚変換器を用いたV2X通信を用いたロバストな協調認識フレームワークを提案する。
具体的には、道路上のエージェント(車やインフラなど)間で情報を効果的に融合するために、総合的な注意モデル、すなわちV2X-ViTを構築します。
V2X-ViTは異質なマルチエージェント・セルフアテンションとマルチスケールウィンドウ・セルフアテンションの交互層で構成され、エージェント間相互作用とエージェントごとの空間関係をキャプチャする。
これらの重要なモジュールは、非同期情報共有、ポーズエラー、V2Xコンポーネントの不均一性など、共通のV2X課題を処理するために、統合トランスフォーマーアーキテクチャで設計されている。
提案手法を検証するため,CARLAとOpenCDAを用いた大規模V2X知覚データセットを作成する。
大規模実験により,V2X-ViTは3次元物体検出のための最先端性能を新たに設定し,厳しい騒音環境下においても頑健な性能を実現することが示された。
データセット、ソースコード、トレーニングされたモデルはオープンソースになる。
関連論文リスト
- DI-V2X: Learning Domain-Invariant Representation for
Vehicle-Infrastructure Collaborative 3D Object Detection [78.09431523221458]
DI-V2Xは、新しい蒸留フレームワークを通じてドメイン不変表現を学習することを目的としている。
DI-V2Xは、ドメイン混合インスタンス拡張(DMA)モジュール、プログレッシブドメイン不変蒸留(PDD)モジュール、ドメイン適応融合(DAF)モジュールの3つの必須成分から構成される。
論文 参考訳(メタデータ) (2023-12-25T14:40:46Z) - Dynamic V2X Autonomous Perception from Road-to-Vehicle Vision [14.666587433945363]
本稿では,道路から車への視界からV2X知覚を構築することを提案し,AR2VP(Adaptive Road-to-Vehicle Perception)法を提案する。
AR2VPは、シーン内とシーン間の両方の変化に取り組むように設計されている。
本研究では,3次元物体検出とセグメンテーションの知覚実験を行い,AR2VPは動的環境における特性帯域トレードオフと適応性の両方に優れることを示した。
論文 参考訳(メタデータ) (2023-10-29T19:01:20Z) - HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with
vision transformer [4.957079586254435]
HM-ViTは、最初の統合マルチエージェントヘテロモーダル協調認識フレームワークである。
3Dオブジェクトを協調的に予測し、様々な数と種類のエージェントと高ダイナミックな車車間コラボレーション(V2V)を行う。
論文 参考訳(メタデータ) (2023-04-20T20:09:59Z) - V2V4Real: A Real-world Large-scale Dataset for Vehicle-to-Vehicle
Cooperative Perception [49.7212681947463]
車両から車両への協調認識システム(V2V)は、自動運転産業に革命をもたらす大きな可能性を秘めている。
V2V4Realは、V2V知覚のための世界初の大規模実世界のマルチモーダルデータセットである。
我々のデータセットは、20KのLiDARフレーム、40KのRGBフレーム、240Kの注釈付き5クラスの3Dバウンディングボックス、HDMapからなる410kmの走行領域をカバーしている。
論文 参考訳(メタデータ) (2023-03-14T02:49:20Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - DAIR-V2X: A Large-Scale Dataset for Vehicle-Infrastructure Cooperative
3D Object Detection [8.681912341444901]
DAIR-V2Xは、自動車・インフラ協調自律運転の現実シナリオから得られた、最初の大規模でマルチモードのマルチビューデータセットである。
DAIR-V2Xは71254のLiDARフレームと71254のカメラフレームで構成される。
論文 参考訳(メタデータ) (2022-04-12T07:13:33Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - V2X-Sim: A Virtual Collaborative Perception Dataset for Autonomous
Driving [26.961213523096948]
V2X(V2X)は、車両と周囲のあらゆる物体の協調を意味する。
V2X-Simデータセットは、自動運転における最初の大規模協調認識データセットである。
論文 参考訳(メタデータ) (2022-02-17T05:14:02Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。