論文の概要: Neural Groundplans: Persistent Neural Scene Representations from a
Single Image
- arxiv url: http://arxiv.org/abs/2207.11232v2
- Date: Mon, 10 Apr 2023 00:49:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 23:45:33.733304
- Title: Neural Groundplans: Persistent Neural Scene Representations from a
Single Image
- Title(参考訳): ニューラルグラウンドプラン:単一画像からの永続的ニューラルシーン表現
- Authors: Prafull Sharma, Ayush Tewari, Yilun Du, Sergey Zakharov, Rares Ambrus,
Adrien Gaidon, William T. Freeman, Fredo Durand, Joshua B. Tenenbaum, Vincent
Sitzmann
- Abstract要約: 本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
- 参考スコア(独自算出の注目度): 90.04272671464238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to map 2D image observations of a scene to a persistent
3D scene representation, enabling novel view synthesis and disentangled
representation of the movable and immovable components of the scene. Motivated
by the bird's-eye-view (BEV) representation commonly used in vision and
robotics, we propose conditional neural groundplans, ground-aligned 2D feature
grids, as persistent and memory-efficient scene representations. Our method is
trained self-supervised from unlabeled multi-view observations using
differentiable rendering, and learns to complete geometry and appearance of
occluded regions. In addition, we show that we can leverage multi-view videos
at training time to learn to separately reconstruct static and movable
components of the scene from a single image at test time. The ability to
separately reconstruct movable objects enables a variety of downstream tasks
using simple heuristics, such as extraction of object-centric 3D
representations, novel view synthesis, instance-level segmentation, 3D bounding
box prediction, and scene editing. This highlights the value of neural
groundplans as a backbone for efficient 3D scene understanding models.
- Abstract(参考訳): 本稿では,シーンの2次元映像観察を永続的な3次元シーン表現にマッピングする方法を提案する。
視覚とロボティクスで一般的に使用される鳥眼ビュー(BEV)表現に触発され,条件付きニューラルネットワーク,2次元特徴格子を永続的でメモリ効率のよいシーン表現として提案する。
本手法は,識別可能レンダリングを用いたラベルなし多視点観察から自己指導を行い,閉鎖領域の形状と外観を学習する。
また,訓練時間にマルチビュー映像を活用して,シーンの静的・可動的なコンポーネントをテスト時間に1つの画像から分離して再構築できることを示す。
可動オブジェクトを個別に再構築する機能により、オブジェクト中心の3D表現の抽出、新しいビュー合成、インスタンスレベルのセグメンテーション、3D境界ボックス予測、シーン編集など、単純なヒューリスティックを使って、さまざまなダウンストリームタスクが可能になる。
これは、効率的な3dシーン理解モデルのバックボーンとしてのニューラルグラウンドプランの価値を強調している。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in
Motion with Neural Rendering [9.600908665766465]
本稿では,マルチビューRGB動画のリジッドモーションによる動的シーンの自己監視追跡と再構成を,手動アノテーションなしで行う新しい手法であるSTaRについて述べる。
本手法は,空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを示した。
論文 参考訳(メタデータ) (2020-12-22T23:45:28Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。