論文の概要: Learning Ego 3D Representation as Ray Tracing
- arxiv url: http://arxiv.org/abs/2206.04042v1
- Date: Wed, 8 Jun 2022 17:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 14:31:40.702454
- Title: Learning Ego 3D Representation as Ray Tracing
- Title(参考訳): レイトレーシングとしてのego 3次元表現の学習
- Authors: Jiachen Lu, Zheyuan Zhou, Xiatian Zhu, Hang Xu, Li Zhang
- Abstract要約: 我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。
我々のモデルはすべての最先端の代替品を著しく上回ります。
- 参考スコア(独自算出の注目度): 42.400505280851114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A self-driving perception model aims to extract 3D semantic representations
from multiple cameras collectively into the bird's-eye-view (BEV) coordinate
frame of the ego car in order to ground downstream planner. Existing perception
methods often rely on error-prone depth estimation of the whole scene or
learning sparse virtual 3D representations without the target geometry
structure, both of which remain limited in performance and/or capability. In
this paper, we present a novel end-to-end architecture for ego 3D
representation learning from an arbitrary number of unconstrained camera views.
Inspired by the ray tracing principle, we design a polarized grid of "imaginary
eyes" as the learnable ego 3D representation and formulate the learning process
with the adaptive attention mechanism in conjunction with the 3D-to-2D
projection. Critically, this formulation allows extracting rich 3D
representation from 2D images without any depth supervision, and with the
built-in geometry structure consistent w.r.t. BEV. Despite its simplicity and
versatility, extensive experiments on standard BEV visual tasks (e.g.,
camera-based 3D object detection and BEV segmentation) show that our model
outperforms all state-of-the-art alternatives significantly, with an extra
advantage in computational efficiency from multi-task learning.
- Abstract(参考訳): 自動認識モデルは、複数のカメラから総合的に3D意味表現をエゴ車の鳥眼視(BEV)座標フレームに抽出し、下流プランナーを接地することを目的としている。
既存の知覚法では、シーン全体の誤差の少ない深さ推定や、ターゲットとなる幾何学構造を使わずに、粗い仮想3D表現を学習することが多い。
本稿では,任意の数の制約のないカメラビューから,エゴ3次元表現学習のための新しいエンドツーエンドアーキテクチャを提案する。
レイトレーシングの原理に触発され、学習可能なego 3d表現として「虚眼」の分極格子をデザインし、3d-to-2d投影と連動して適応注意機構を用いて学習プロセスを定式化する。
批判的なことに、この定式化により、奥行きの監督なしに2次元画像からリッチな3D表現を抽出できる。
その単純さと汎用性にもかかわらず、標準的なBEV視覚タスク(例えば、カメラベースの3Dオブジェクト検出とBEVセグメンテーション)に関する広範な実験により、我々のモデルは、マルチタスク学習による計算効率のさらなる優位性により、最先端の代替品を著しく上回ることを示した。
関連論文リスト
- BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z) - GRF: Learning a General Radiance Field for 3D Representation and
Rendering [4.709764624933227]
我々は、暗黙的に3Dオブジェクトとシーンを2D観察からのみ表現しレンダリングする、シンプルだが強力なニューラルネットワークを提案する。
ネットワークは、一般的な放射場として3Dジオメトリをモデル化し、カメラのポーズと固有の2D画像のセットを入力として取り込む。
提案手法は, 斬新なオブジェクト, 見えないカテゴリ, 現実のシーンに対して, 高品質で現実的な新しいビューを生成できる。
論文 参考訳(メタデータ) (2020-10-09T14:21:43Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。