論文の概要: Seeing 3D Objects in a Single Image via Self-Supervised Static-Dynamic
Disentanglement
- arxiv url: http://arxiv.org/abs/2207.11232v1
- Date: Fri, 22 Jul 2022 17:41:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:25:50.396543
- Title: Seeing 3D Objects in a Single Image via Self-Supervised Static-Dynamic
Disentanglement
- Title(参考訳): 自己監督型静的動的絡み合いによる1枚の画像中の3次元物体の観察
- Authors: Prafull Sharma, Ayush Tewari, Yilun Du, Sergey Zakharov, Rares Ambrus,
Adrien Gaidon, William T. Freeman, Fredo Durand, Joshua B. Tenenbaum, Vincent
Sitzmann
- Abstract要約: 本研究では,未ラベルのマルチビュー映像を訓練時に観察し,複雑なシーンの単一画像観察を学習する手法を提案する。
我々は,2次元のニューラルグラウンド計画を用いて,移動可能かつ移動不能なシーンをパラメータ化する。
本研究では,この不整合3次元表現に固有の構造が,街路規模の3次元シーンにおいて,様々な下流作業を可能にすることを実証する。
- 参考スコア(独自算出の注目度): 90.04272671464238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human perception reliably identifies movable and immovable parts of 3D
scenes, and completes the 3D structure of objects and background from
incomplete observations. We learn this skill not via labeled examples, but
simply by observing objects move. In this work, we propose an approach that
observes unlabeled multi-view videos at training time and learns to map a
single image observation of a complex scene, such as a street with cars, to a
3D neural scene representation that is disentangled into movable and immovable
parts while plausibly completing its 3D structure. We separately parameterize
movable and immovable scene parts via 2D neural ground plans. These ground
plans are 2D grids of features aligned with the ground plane that can be
locally decoded into 3D neural radiance fields. Our model is trained
self-supervised via neural rendering. We demonstrate that the structure
inherent to our disentangled 3D representation enables a variety of downstream
tasks in street-scale 3D scenes using simple heuristics, such as extraction of
object-centric 3D representations, novel view synthesis, instance segmentation,
and 3D bounding box prediction, highlighting its value as a backbone for
data-efficient 3D scene understanding models. This disentanglement further
enables scene editing via object manipulation such as deletion, insertion, and
rigid-body motion.
- Abstract(参考訳): 人間の知覚は3dシーンの可動性と不動部分を確実に識別し、不完全な観察から物体と背景の3d構造を完成させる。
このスキルはラベル付きの例ではなく、単にオブジェクトの動きを観察することで学んでいます。
本研究では,訓練時間にラベルなしの多視点映像を観察し,車載道路などの複雑なシーンの1枚の画像観察を,その3次元構造を再現し,移動可能で不動な部分とつながれた3次元ニューラルシーン表現にマッピングする手法を提案する。
2次元ニューラルグラウンド計画により、可動部と移動可能部を別々にパラメータ化する。
これらの地上計画は、地平面に整列した2次元グリッドであり、局所的に3次元神経放射場にデコードできる。
我々のモデルはニューラルレンダリングによって自己教師される。
本研究では, オブジェクト中心の3次元表現の抽出, 新規ビュー合成, インスタンスセグメンテーション, 3次元境界ボックス予測など, 簡易なヒューリスティック手法を用いて, ストリートスケールの3次元シーンにおいて, データ効率のよい3次元シーン理解モデルのためのバックボーンとしての価値を強調した。
この絡み合いにより、削除、挿入、剛体運動などのオブジェクト操作によるシーン編集も可能となる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - STaR: Self-supervised Tracking and Reconstruction of Rigid Objects in
Motion with Neural Rendering [9.600908665766465]
本稿では,マルチビューRGB動画のリジッドモーションによる動的シーンの自己監視追跡と再構成を,手動アノテーションなしで行う新しい手法であるSTaRについて述べる。
本手法は,空間軸と時間軸の両方で新規性を測定するフォトリアリスティック・ノベルビューを描画できることを示した。
論文 参考訳(メタデータ) (2020-12-22T23:45:28Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。