Fugu-MT 論文翻訳(概要): V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer

論文の概要: V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer

arxiv url: http://arxiv.org/abs/2203.10638v1
Date: Sun, 20 Mar 2022 20:18:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-23 07:02:36.048136
Title: V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer
Title（参考訳）: V2X-ViT:視覚変換器を用いた車両間協調認識
Authors: Runsheng Xu, Hao Xiang, Zhengzhong Tu, Xin Xia, Ming-Hsuan Yang, Jiaqi Ma
Abstract要約: 我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。 V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
参考スコア（独自算出の注目度）: 58.71845618090022
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate the application of Vehicle-to-Everything (V2X) communication to improve the perception performance of autonomous vehicles. We present a robust cooperative perception framework with V2X communication using a novel vision Transformer. Specifically, we build a holistic attention model, namely V2X-ViT, to effectively fuse information across on-road agents (i.e., vehicles and infrastructure). V2X-ViT consists of alternating layers of heterogeneous multi-agent self-attention and multi-scale window self-attention, which captures inter-agent interaction and per-agent spatial relationships. These key modules are designed in a unified Transformer architecture to handle common V2X challenges, including asynchronous information sharing, pose errors, and heterogeneity of V2X components. To validate our approach, we create a large-scale V2X perception dataset using CARLA and OpenCDA. Extensive experimental results demonstrate that V2X-ViT sets new state-of-the-art performance for 3D object detection and achieves robust performance even under harsh, noisy environments. The dataset, source code, and trained models will be open-sourced.
Abstract（参考訳）: 本稿では、車両間通信(v2x)の自動運転車の認識性能向上への応用について検討する。本稿では,新しい視覚変換器を用いたV2X通信を用いたロバストな協調認識フレームワークを提案する。具体的には、道路上のエージェント(車やインフラなど)間で情報を効果的に融合するために、総合的な注意モデル、すなわちV2X-ViTを構築します。 V2X-ViTは異質なマルチエージェント・セルフアテンションとマルチスケールウィンドウ・セルフアテンションの交互層で構成され、エージェント間相互作用とエージェントごとの空間関係をキャプチャする。これらの重要なモジュールは、非同期情報共有、ポーズエラー、V2Xコンポーネントの不均一性など、共通のV2X課題を処理するために、統合トランスフォーマーアーキテクチャで設計されている。提案手法を検証するため,CARLAとOpenCDAを用いた大規模V2X知覚データセットを作成する。大規模実験により,V2X-ViTは3次元物体検出のための最先端性能を新たに設定し,厳しい騒音環境下においても頑健な性能を実現することが示された。データセット、ソースコード、トレーニングされたモデルはオープンソースになる。

関連論文リスト

Mixed Signals: A Diverse Point Cloud Dataset for Heterogeneous LiDAR V2X Collaboration [56.75198775820637]
車両間協調認識(V2X)は、単車知覚システムの限界に対処するための有望な解決策として登場した。これらのギャップに対処するために、45.1kの点雲と240.6kのバウンディングボックスを備えた総合的なV2XデータセットであるMixed Signalsを紹介した。私たちのデータセットは、正確に整合したポイントクラウドと10クラスにわたるバウンディングボックスアノテーションを提供し、認識トレーニングのための信頼性の高いデータを確保します。
論文参考訳（メタデータ） (2025-02-19T23:53:00Z)
V2X-DGPE: Addressing Domain Gaps and Pose Errors for Robust Collaborative 3D Object Detection [18.694510415777632]
V2X-DGPEは高精度で堅牢なV2X特徴レベルの協調認識フレームワークである。提案手法は既存の手法より優れ、最先端検出性能を実現する。
論文参考訳（メタデータ） (2025-01-04T19:28:55Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
CooPre: Cooperative Pretraining for V2X Cooperative Perception [47.00472259100765]
本稿では,V2X協調認識のための自己教師付き学習手法を提案する。膨大な量のラベルのない3D V2Xデータを用いて知覚性能を向上させる。
論文参考訳（メタデータ） (2024-08-20T23:39:26Z)
V2X-Real: a Large-Scale Dataset for Vehicle-to-Everything Cooperative Perception [22.3955949838171]
V2X-Realは大規模なデータセットで、複数の車両とスマートインフラストラクチャが混在している。我々のデータセットには33KのLiDARフレームと171Kのカメラデータが含まれており、非常に困難な都市シナリオでは10のカテゴリに1.2Mの注釈付きバウンディングボックスがある。
論文参考訳（メタデータ） (2024-03-24T06:30:02Z)
DI-V2X: Learning Domain-Invariant Representation for Vehicle-Infrastructure Collaborative 3D Object Detection [78.09431523221458]
DI-V2Xは、新しい蒸留フレームワークを通じてドメイン不変表現を学習することを目的としている。 DI-V2Xは、ドメイン混合インスタンス拡張(DMA)モジュール、プログレッシブドメイン不変蒸留(PDD)モジュール、ドメイン適応融合(DAF)モジュールの3つの必須成分から構成される。
論文参考訳（メタデータ） (2023-12-25T14:40:46Z)
Learning Cooperative Trajectory Representations for Motion Forecasting [4.380073528690906]
協調情報から動きと相互作用の特徴を利用するための予測指向表現パラダイムを提案する。 V2X-Graphは、協調動作予測のための解釈可能かつエンドツーエンドな特徴量融合を実現するための代表的なフレームワークである。車両から全車まで(V2X)のシナリオを更に評価するため,V2X-Traj を用いたV2X運動予測データセットを構築した。
論文参考訳（メタデータ） (2023-11-01T08:53:05Z)
HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with vision transformer [4.957079586254435]
HM-ViTは、最初の統合マルチエージェントヘテロモーダル協調認識フレームワークである。 3Dオブジェクトを協調的に予測し、様々な数と種類のエージェントと高ダイナミックな車車間コラボレーション(V2V)を行う。
論文参考訳（メタデータ） (2023-04-20T20:09:59Z)
V2V4Real: A Real-world Large-scale Dataset for Vehicle-to-Vehicle Cooperative Perception [49.7212681947463]
車両から車両への協調認識システム(V2V)は、自動運転産業に革命をもたらす大きな可能性を秘めている。 V2V4Realは、V2V知覚のための世界初の大規模実世界のマルチモーダルデータセットである。我々のデータセットは、20KのLiDARフレーム、40KのRGBフレーム、240Kの注釈付き5クラスの3Dバウンディングボックス、HDMapからなる410kmの走行領域をカバーしている。
論文参考訳（メタデータ） (2023-03-14T02:49:20Z)
CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。 CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文参考訳（メタデータ） (2022-07-05T17:59:28Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
V2X-Sim: A Virtual Collaborative Perception Dataset for Autonomous Driving [26.961213523096948]
V2X(V2X)は、車両と周囲のあらゆる物体の協調を意味する。 V2X-Simデータセットは、自動運転における最初の大規模協調認識データセットである。
論文参考訳（メタデータ） (2022-02-17T05:14:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。