論文の概要: Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision
- arxiv url: http://arxiv.org/abs/2007.15627v2
- Date: Fri, 23 Oct 2020 15:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:24:15.003432
- Title: Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision
- Title(参考訳): 連続オブジェクト表現ネットワーク:ターゲットビューの監督を伴わない新しいビュー合成
- Authors: Nicolai H\"ani, Selim Engin, Jun-Jee Chao and Volkan Isler
- Abstract要約: 連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
- 参考スコア(独自算出の注目度): 26.885846254261626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel View Synthesis (NVS) is concerned with synthesizing views under camera
viewpoint transformations from one or multiple input images. NVS requires
explicit reasoning about 3D object structure and unseen parts of the scene to
synthesize convincing results. As a result, current approaches typically rely
on supervised training with either ground truth 3D models or multiple target
images. We propose Continuous Object Representation Networks (CORN), a
conditional architecture that encodes an input image's geometry and appearance
that map to a 3D consistent scene representation. We can train CORN with only
two source images per object by combining our model with a neural renderer. A
key feature of CORN is that it requires no ground truth 3D models or target
view supervision. Regardless, CORN performs well on challenging tasks such as
novel view synthesis and single-view 3D reconstruction and achieves performance
comparable to state-of-the-art approaches that use direct supervision. For
up-to-date information, data, and code, please see our project page:
https://nicolaihaeni.github.io/corn/.
- Abstract(参考訳): 新規ビュー合成(NVS)は、1つまたは複数の入力画像からのカメラ視点変換の下でのビューの合成に関するものである。
NVSは、説得力のある結果を合成するために、3Dオブジェクトの構造とシーンの見えない部分について明確な推論を必要とする。
結果として、現在のアプローチは典型的には、3Dモデルまたは複数のターゲット画像を用いた教師付きトレーニングに依存している。
本研究では、入力画像の形状と外観を符号化し、3次元一貫したシーン表現にマッピングする条件付きアーキテクチャである連続オブジェクト表現ネットワーク(CORN)を提案する。
モデルとニューラルレンダラーを組み合わせることで、オブジェクト毎に2つのソースイメージだけでCORNをトレーニングできます。
CORNの重要な特徴は、3Dモデルやターゲットビューの監督を必要としないことである。
にもかかわらず、CORNは、新しいビューの合成やシングルビューの3D再構成のような挑戦的なタスクをうまくこなし、直接監督する最先端のアプローチに匹敵するパフォーマンスを達成する。
最新の情報、データ、コードについては、プロジェクトページを参照してください。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Free3D: Consistent Novel View Synthesis without 3D Representation [63.931920010054064]
Free3Dは単分子開集合新規ビュー合成(NVS)の簡易的高精度な方法である
同様のアプローチを採った他の作品と比較して,明快な3D表現に頼らずに大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-12-07T18:59:18Z) - Viewpoint Textual Inversion: Discovering Scene Representations and 3D View Control in 2D Diffusion Models [4.036372578802888]
安定拡散のようなモデルのテキスト埋め込み空間において,特定の3次元シーン表現が符号化されていることを示す。
我々は,3次元視覚タスク,すなわちビュー制御されたテキスト・ツー・イメージ生成,および単一画像からの新規なビュー合成に3次元シーン表現を利用する。
論文 参考訳(メタデータ) (2023-09-14T18:52:16Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。