論文の概要: HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with
vision transformer
- arxiv url: http://arxiv.org/abs/2304.10628v1
- Date: Thu, 20 Apr 2023 20:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:33:28.432008
- Title: HM-ViT: Hetero-modal Vehicle-to-Vehicle Cooperative perception with
vision transformer
- Title(参考訳): HM-ViT:視覚変換器を用いた異機種間協調認識
- Authors: Hao Xiang, Runsheng Xu, Jiaqi Ma
- Abstract要約: HM-ViTは、最初の統合マルチエージェントヘテロモーダル協調認識フレームワークである。
3Dオブジェクトを協調的に予測し、様々な数と種類のエージェントと高ダイナミックな車車間コラボレーション(V2V)を行う。
- 参考スコア(独自算出の注目度): 4.957079586254435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vehicle-to-Vehicle technologies have enabled autonomous vehicles to share
information to see through occlusions, greatly enhancing perception
performance. Nevertheless, existing works all focused on homogeneous traffic
where vehicles are equipped with the same type of sensors, which significantly
hampers the scale of collaboration and benefit of cross-modality interactions.
In this paper, we investigate the multi-agent hetero-modal cooperative
perception problem where agents may have distinct sensor modalities. We present
HM-ViT, the first unified multi-agent hetero-modal cooperative perception
framework that can collaboratively predict 3D objects for highly dynamic
vehicle-to-vehicle (V2V) collaborations with varying numbers and types of
agents. To effectively fuse features from multi-view images and LiDAR point
clouds, we design a novel heterogeneous 3D graph transformer to jointly reason
inter-agent and intra-agent interactions. The extensive experiments on the V2V
perception dataset OPV2V demonstrate that the HM-ViT outperforms SOTA
cooperative perception methods for V2V hetero-modal cooperative perception. We
will release codes to facilitate future research.
- Abstract(参考訳): 車両と車両のテクノロジーは、自動運転車がオクルージョンを通して見る情報を共有することを可能にし、認識性能を大幅に向上させた。
それにもかかわらず、既存の作業はすべて、車両が同じタイプのセンサーを搭載している均質な交通に焦点を当てており、協調のスケールと相互モダリティ相互作用の利点を著しく阻害している。
本稿では,エージェントが異なるセンサモードを持つ場合のマルチエージェントヘテロモーダル協調認識問題について検討する。
本稿では,3dオブジェクトを協調的に予測し,車両間相互作用(v2v)を多種多様なエージェントと組み合わせて予測する,初の統合型マルチエージェント・ヘテロモーダル協調認識フレームワークhm-vitを提案する。
マルチビュー画像とLiDAR点群の特徴を効果的に融合するために,エージェント間相互作用とエージェント間相互作用を共同で推論する異種3Dグラフ変換器を設計する。
V2V知覚データセットOPV2Vに関する広範な実験により、HM-ViTはV2Vのヘテロモーダル協調知覚においてSOTA協調知覚法より優れていることが示された。
今後の研究を促進するためのコードをリリースします。
関連論文リスト
- Hybrid-Generative Diffusion Models for Attack-Oriented Twin Migration in Vehicular Metaverses [58.264499654343226]
Vehicle Twins (VTs) は、Vehicular Metaverse Users (VMUs) 向けに没入型仮想サービスを提供するデジタルツインである。
車両の高モビリティ、エッジサーバの不均一なデプロイ、潜在的なセキュリティ脅威は、効率的で信頼性の高いVTマイグレーションを実現する上での課題である。
車両メタバースにおけるセキュアで信頼性の高いVTマイグレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T11:11:33Z) - SiCP: Simultaneous Individual and Cooperative Perception for 3D Object Detection in Connected and Automated Vehicles [18.23919432049492]
連結車両と自動車両の協調認識は、伝統的に2台以上の車両の特徴マップの融合によって達成される。
この欠点は、車両資源が2つの知覚モデルを同時に使用するには不十分なため、協調的な知覚の採用を妨げる。
我々は、最先端のスタンドアロン認識バックボーンを幅広くサポートする汎用フレームワークである、同時個人協調知覚(SiCP)を提示する。
論文 参考訳(メタデータ) (2023-12-08T04:12:26Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - V2V4Real: A Real-world Large-scale Dataset for Vehicle-to-Vehicle
Cooperative Perception [49.7212681947463]
車両から車両への協調認識システム(V2V)は、自動運転産業に革命をもたらす大きな可能性を秘めている。
V2V4Realは、V2V知覚のための世界初の大規模実世界のマルチモーダルデータセットである。
我々のデータセットは、20KのLiDARフレーム、40KのRGBフレーム、240Kの注釈付き5クラスの3Dバウンディングボックス、HDMapからなる410kmの走行領域をカバーしている。
論文 参考訳(メタデータ) (2023-03-14T02:49:20Z) - Learning for Vehicle-to-Vehicle Cooperative Perception under Lossy
Communication [30.100647849646467]
本稿では,V2V協調知覚におけるコミュニケーションの損失による副作用(例えば,検出性能低下)について検討する。
損失通信の副作用を軽減するため,新しい中間LC対応機能融合法を提案する。
提案手法は,V2V通信における協調点雲を用いた3次元物体検出に極めて有効である。
論文 参考訳(メタデータ) (2022-12-16T04:18:47Z) - CoBEVT: Cooperative Bird's Eye View Semantic Segmentation with Sparse
Transformers [36.838065731893735]
CoBEVTは、BEVマップ予測を協調的に生成できる最初の汎用マルチエージェント認識フレームワークである。
CoBEVTは協調的BEVセマンティックセグメンテーションのための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-05T17:59:28Z) - V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision
Transformer [58.71845618090022]
我々は、道路上のエージェント間で情報を融合するために、V2X-ViTという全体論的アテンションモデルを構築した。
V2X-ViTは異質なマルチエージェント自己アテンションとマルチスケールウィンドウ自己アテンションの交互層から構成される。
我々のアプローチを検証するために、我々は大規模なV2X知覚データセットを作成します。
論文 参考訳(メタデータ) (2022-03-20T20:18:25Z) - V2X-Sim: A Virtual Collaborative Perception Dataset for Autonomous
Driving [26.961213523096948]
V2X(V2X)は、車両と周囲のあらゆる物体の協調を意味する。
V2X-Simデータセットは、自動運転における最初の大規模協調認識データセットである。
論文 参考訳(メタデータ) (2022-02-17T05:14:02Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。