論文の概要: UniVision: A Unified Framework for Vision-Centric 3D Perception
- arxiv url: http://arxiv.org/abs/2401.06994v1
- Date: Sat, 13 Jan 2024 06:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:18:55.339234
- Title: UniVision: A Unified Framework for Vision-Centric 3D Perception
- Title(参考訳): UniVision: ビジョン中心の3D知覚のための統一フレームワーク
- Authors: Yu Hong, Qian Liu, Huayuan Cheng, Danjiao Ma, Hang Dai, Yu Wang,
Guangzhi Cao, Yong Ding
- Abstract要約: 視覚中心の3D知覚における2つの主要なタスクを統一する,シンプルで効率的なフレームワークであるUniVisionを提案する。
具体的には、補完的な2D-3D特徴変換のための明示的でシンプルなビュー変換モジュールを提案する。
本稿では,共同占有量検出データ強化戦略と進行損失量調整戦略を提案する。
- 参考スコア(独自算出の注目度): 24.181610013329944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The past few years have witnessed the rapid development of vision-centric 3D
perception in autonomous driving. Although the 3D perception models share many
structural and conceptual similarities, there still exist gaps in their feature
representations, data formats, and objectives, posing challenges for unified
and efficient 3D perception framework design. In this paper, we present
UniVision, a simple and efficient framework that unifies two major tasks in
vision-centric 3D perception, \ie, occupancy prediction and object detection.
Specifically, we propose an explicit-implicit view transform module for
complementary 2D-3D feature transformation. We propose a local-global feature
extraction and fusion module for efficient and adaptive voxel and BEV feature
extraction, enhancement, and interaction. Further, we propose a joint
occupancy-detection data augmentation strategy and a progressive loss weight
adjustment strategy which enables the efficiency and stability of the
multi-task framework training. We conduct extensive experiments for different
perception tasks on four public benchmarks, including nuScenes LiDAR
segmentation, nuScenes detection, OpenOccupancy, and Occ3D. UniVision achieves
state-of-the-art results with +1.5 mIoU, +1.8 NDS, +1.5 mIoU, and +1.8 mIoU
gains on each benchmark, respectively. We believe that the UniVision framework
can serve as a high-performance baseline for the unified vision-centric 3D
perception task. The code will be available at
\url{https://github.com/Cc-Hy/UniVision}.
- Abstract(参考訳): 過去数年間、自動運転における視覚中心の3D知覚の急速な発展を目撃してきた。
3D知覚モデルは、多くの構造的および概念的類似性を共有しているが、その特徴表現、データフォーマット、目的にはまだギャップがあり、統一的で効率的な3D知覚フレームワーク設計の課題を提起している。
本稿では、視覚中心の3D知覚における2つの主要なタスクを統一する、シンプルで効率的なフレームワークであるUniVisionについて述べる。
具体的には,相補的な2d-3d特徴変換のための明示的簡易ビュー変換モジュールを提案する。
本稿では, 効率よく適応可能なボクセルとBEV特徴抽出, 強化, 相互作用のための局所的特徴抽出・融合モジュールを提案する。
さらに,マルチタスク・フレームワーク・トレーニングの効率と安定性を実現するために,共同占有検知データ拡張戦略と漸進的損失重み調整戦略を提案する。
我々は、nuScenes LiDARセグメンテーション、nuScenes Detection、OpenOccupancy、Occ3Dを含む4つの公開ベンチマークで異なる知覚タスクの広範な実験を行う。
UniVisionは、それぞれのベンチマークで、+1.5 mIoU、+1.8 NDS、+1.5 mIoU、+1.8 mIoUで、最先端の結果を達成する。
私たちは、ユニビジョンフレームワークは、統一視覚中心の3d知覚タスクの高性能ベースラインとして機能できると信じています。
コードは \url{https://github.com/Cc-Hy/UniVision} で入手できる。
関連論文リスト
- Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。
様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。
2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文 参考訳(メタデータ) (2024-03-14T16:13:00Z) - Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation
for Autonomous Driving [5.347428263669927]
この論文は、視覚に基づく3D知覚技術の進歩への多面的な貢献である。
第1節では、この論文はモノクロとステレオの両方のオブジェクト検出アルゴリズムに構造的拡張を導入している。
第2のセグメントは、データ駆動戦略と、3D視覚検出における実世界の応用に特化している。
論文 参考訳(メタデータ) (2024-03-04T13:42:54Z) - Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
論文 参考訳(メタデータ) (2022-06-08T17:55:50Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。