論文の概要: AutoRF: Learning 3D Object Radiance Fields from Single View Observations
- arxiv url: http://arxiv.org/abs/2204.03593v1
- Date: Thu, 7 Apr 2022 17:13:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 17:09:51.376488
- Title: AutoRF: Learning 3D Object Radiance Fields from Single View Observations
- Title(参考訳): AutoRF:シングルビュー観測から3次元物体放射場を学習する
- Authors: Norman M\"uller, Andrea Simonelli, Lorenzo Porzi, Samuel Rota Bul\`o,
Matthias Nie{\ss}ner, Peter Kontschieder
- Abstract要約: AutoRFは、トレーニングセットの各オブジェクトが単一のビューでのみ観察される、ニューラルな3Dオブジェクト表現を学ぶための新しいアプローチである。
提案手法は,現実の街路シーンに挑戦するさまざまなデータセットであっても,見えない物体に対してうまく一般化可能であることを示す。
- 参考スコア(独自算出の注目度): 17.289819674602295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AutoRF - a new approach for learning neural 3D object
representations where each object in the training set is observed by only a
single view. This setting is in stark contrast to the majority of existing
works that leverage multiple views of the same object, employ explicit priors
during training, or require pixel-perfect annotations. To address this
challenging setting, we propose to learn a normalized, object-centric
representation whose embedding describes and disentangles shape, appearance,
and pose. Each encoding provides well-generalizable, compact information about
the object of interest, which is decoded in a single-shot into a new target
view, thus enabling novel view synthesis. We further improve the reconstruction
quality by optimizing shape and appearance codes at test time by fitting the
representation tightly to the input image. In a series of experiments, we show
that our method generalizes well to unseen objects, even across different
datasets of challenging real-world street scenes such as nuScenes, KITTI, and
Mapillary Metropolis.
- Abstract(参考訳): トレーニングセットの各オブジェクトが単一のビューでのみ観察されるニューラル3Dオブジェクト表現を学習するための新しいアプローチであるAutoRFを紹介する。
この設定は、同じオブジェクトの複数のビューを利用したり、トレーニング中に明示的な事前設定を採用したり、ピクセル完全アノテーションを必要とする既存の作品のほとんどとは全く対照的である。
この課題に対処するために、埋め込みが形状、外観、ポーズを記述・歪ませる正規化されたオブジェクト中心表現を学習することを提案する。
各エンコーディングは、関心のあるオブジェクトに関するよく一般化されたコンパクトな情報を提供し、シングルショットで新しいターゲットビューにデコードされ、新しいビュー合成を可能にする。
この表現を入力画像に密着させて、テスト時に形状や外観を最適化し、復元品質をさらに向上させる。
一連の実験において,本手法は,nuScenes,KITTI,Mapillary Metropolisなど,現実のストリートシーンに挑戦するさまざまなデータセットでさえも,見えないオブジェクトに対してうまく一般化可能であることを示す。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Variational Inference for Scalable 3D Object-centric Learning [19.445804699433353]
我々は3Dシーンにおける拡張性のないオブジェクト中心表現学習の課題に取り組む。
オブジェクト中心表現学習への既存のアプローチは、より大きなシーンに一般化する際の限界を示している。
局所オブジェクト座標系におけるビュー不変3次元オブジェクト表現の学習を提案する。
論文 参考訳(メタデータ) (2023-09-25T10:23:40Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - LOLNeRF: Learn from One Look [22.771493686755544]
本稿では,ニューラルレイディアンス場に基づく生成3次元モデル学習手法を提案する。
既存の手法とは異なり、この目標を達成するためにマルチビューデータを必要としないことを示す。
論文 参考訳(メタデータ) (2021-11-19T01:20:01Z) - Learning Object-Centric Representations of Multi-Object Scenes from
Multiple Views [9.556376932449187]
マルチビュー・マルチオブジェクトネットワーク(マルチビュー・マルチオブジェクトネットワーク、MulMON)は、複数のビューを活用することで、複数のオブジェクトシーンの正確なオブジェクト中心表現を学習する手法である。
我々は,MulMONが単一視点法よりも空間的曖昧性をよく解いていることを示す。
論文 参考訳(メタデータ) (2021-11-13T13:54:28Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。