Fugu-MT 論文翻訳(概要): UniVision: A Unified Framework for Vision-Centric 3D Perception

論文の概要: UniVision: A Unified Framework for Vision-Centric 3D Perception

arxiv url: http://arxiv.org/abs/2401.06994v1
Date: Sat, 13 Jan 2024 06:43:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 20:18:55.339234
Title: UniVision: A Unified Framework for Vision-Centric 3D Perception
Title（参考訳）: UniVision: ビジョン中心の3D知覚のための統一フレームワーク
Authors: Yu Hong, Qian Liu, Huayuan Cheng, Danjiao Ma, Hang Dai, Yu Wang, Guangzhi Cao, Yong Ding
Abstract要約: 視覚中心の3D知覚における2つの主要なタスクを統一する,シンプルで効率的なフレームワークであるUniVisionを提案する。具体的には、補完的な2D-3D特徴変換のための明示的でシンプルなビュー変換モジュールを提案する。本稿では,共同占有量検出データ強化戦略と進行損失量調整戦略を提案する。
参考スコア（独自算出の注目度）: 24.181610013329944
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The past few years have witnessed the rapid development of vision-centric 3D perception in autonomous driving. Although the 3D perception models share many structural and conceptual similarities, there still exist gaps in their feature representations, data formats, and objectives, posing challenges for unified and efficient 3D perception framework design. In this paper, we present UniVision, a simple and efficient framework that unifies two major tasks in vision-centric 3D perception, \ie, occupancy prediction and object detection. Specifically, we propose an explicit-implicit view transform module for complementary 2D-3D feature transformation. We propose a local-global feature extraction and fusion module for efficient and adaptive voxel and BEV feature extraction, enhancement, and interaction. Further, we propose a joint occupancy-detection data augmentation strategy and a progressive loss weight adjustment strategy which enables the efficiency and stability of the multi-task framework training. We conduct extensive experiments for different perception tasks on four public benchmarks, including nuScenes LiDAR segmentation, nuScenes detection, OpenOccupancy, and Occ3D. UniVision achieves state-of-the-art results with +1.5 mIoU, +1.8 NDS, +1.5 mIoU, and +1.8 mIoU gains on each benchmark, respectively. We believe that the UniVision framework can serve as a high-performance baseline for the unified vision-centric 3D perception task. The code will be available at \url{https://github.com/Cc-Hy/UniVision}.
Abstract（参考訳）: 過去数年間、自動運転における視覚中心の3D知覚の急速な発展を目撃してきた。 3D知覚モデルは、多くの構造的および概念的類似性を共有しているが、その特徴表現、データフォーマット、目的にはまだギャップがあり、統一的で効率的な3D知覚フレームワーク設計の課題を提起している。本稿では、視覚中心の3D知覚における2つの主要なタスクを統一する、シンプルで効率的なフレームワークであるUniVisionについて述べる。具体的には,相補的な2d-3d特徴変換のための明示的簡易ビュー変換モジュールを提案する。本稿では, 効率よく適応可能なボクセルとBEV特徴抽出, 強化, 相互作用のための局所的特徴抽出・融合モジュールを提案する。さらに,マルチタスク・フレームワーク・トレーニングの効率と安定性を実現するために,共同占有検知データ拡張戦略と漸進的損失重み調整戦略を提案する。我々は、nuScenes LiDARセグメンテーション、nuScenes Detection、OpenOccupancy、Occ3Dを含む4つの公開ベンチマークで異なる知覚タスクの広範な実験を行う。 UniVisionは、それぞれのベンチマークで、+1.5 mIoU、+1.8 NDS、+1.5 mIoU、+1.8 mIoUで、最先端の結果を達成する。私たちは、ユニビジョンフレームワークは、統一視覚中心の3d知覚タスクの高性能ベースラインとして機能できると信じています。コードは \url{https://github.com/Cc-Hy/UniVision} で入手できる。

関連論文リスト

One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。 V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文参考訳（メタデータ） (2025-05-23T17:41:14Z)
VisionPAD: A Vision-Centric Pre-training Paradigm for Autonomous Driving [44.91443640710085]
VisionPADは、自律運転におけるビジョン中心のアルゴリズムのための、新しい自己教師付き事前訓練パラダイムである。画像のみを監督として多視点表現を再構築する。これにより、3Dオブジェクトの検出、占有率予測、マップセグメンテーションのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2024-11-22T03:59:41Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding [47.58359136198136]
VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択に自動化をもたらす。 2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、多様なマルチモーダル入力に基づいて最適な結果を生成する。
論文参考訳（メタデータ） (2024-03-14T16:13:00Z)
Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文参考訳（メタデータ） (2024-02-23T19:43:01Z)
UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文参考訳（メタデータ） (2023-08-21T02:13:40Z)
UniTR: A Unified and Efficient Multi-Modal Transformer for Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。 UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。 UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文参考訳（メタデータ） (2023-08-15T12:13:44Z)
Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。 GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。 BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文参考訳（メタデータ） (2023-04-06T14:33:05Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。我々のモデルはすべての最先端の代替品を著しく上回ります。
論文参考訳（メタデータ） (2022-06-08T17:55:50Z)
Improving Point Cloud Semantic Segmentation by Learning 3D Object Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。 Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文参考訳（メタデータ） (2020-09-22T14:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。