論文の概要: Denoising Diffusion via Image-Based Rendering
- arxiv url: http://arxiv.org/abs/2402.03445v2
- Date: Tue, 20 Feb 2024 20:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 18:59:40.352188
- Title: Denoising Diffusion via Image-Based Rendering
- Title(参考訳): イメージベースレンダリングによるノイズ拡散
- Authors: Titas Anciukevi\v{c}ius, Fabian Manhardt, Federico Tombari, Paul
Henderson
- Abstract要約: 実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
- 参考スコア(独自算出の注目度): 54.20828696348574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating 3D scenes is a challenging open problem, which requires
synthesizing plausible content that is fully consistent in 3D space. While
recent methods such as neural radiance fields excel at view synthesis and 3D
reconstruction, they cannot synthesize plausible details in unobserved regions
since they lack a generative capability. Conversely, existing generative
methods are typically not capable of reconstructing detailed, large-scale
scenes in the wild, as they use limited-capacity 3D scene representations,
require aligned camera poses, or rely on additional regularizers. In this work,
we introduce the first diffusion model able to perform fast, detailed
reconstruction and generation of real-world 3D scenes. To achieve this, we make
three contributions. First, we introduce a new neural scene representation,
IB-planes, that can efficiently and accurately represent large 3D scenes,
dynamically allocating more capacity as needed to capture details visible in
each image. Second, we propose a denoising-diffusion framework to learn a prior
over this novel 3D scene representation, using only 2D images without the need
for any additional supervision signal such as masks or depths. This supports 3D
reconstruction and generation in a unified architecture. Third, we develop a
principled approach to avoid trivial 3D solutions when integrating the
image-based rendering with the diffusion model, by dropping out representations
of some images. We evaluate the model on several challenging datasets of real
and synthetic images, and demonstrate superior results on generation, novel
view synthesis and 3D reconstruction.
- Abstract(参考訳): 3Dシーンの生成は、難しいオープンな問題であり、3D空間で完全に一貫した可塑性コンテンツを合成する必要がある。
視合成や3次元再構成において神経放射場のような近年の手法は優れているが、生成能力が欠如しているため、観測されていない領域で可塑性詳細を合成することはできない。
逆に、既存の生成法は、限られた容量の3dシーン表現、アライメントされたカメラポーズを必要とする、あるいは追加のレギュレータに依存するため、野生の詳細な大規模なシーンを再構築することができない。
本研究では,現実の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
これを達成するために、私たちは3つの貢献をします。
まず、我々は、大きな3Dシーンを効率よく正確に表現し、各画像で見える詳細を捉えるのに必要な容量を動的に割り当てる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,マスクや奥行きなどの追加の監視信号を必要としない2次元画像のみを用いて,この新しい3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
これは統一アーキテクチャにおける3D再構成と生成をサポートする。
第3に,拡散モデルとイメージベースレンダリングを統合する際に,画像の表現を取り除き,自明な3dソリューションを避けるための原理的手法を開発した。
実画像と合成画像の難解なデータセット上でモデルを評価し, 生成, 新規なビュー合成, 3次元再構成における優れた結果を示す。
関連論文リスト
- ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model [16.14713604672497]
ReconXは、時間生成タスクとして曖昧な再構築課題を再編成する、新しい3Dシーン再構築パラダイムである。
提案したReconXはまずグローバルポイントクラウドを構築し、3D構造条件としてコンテキスト空間にエンコードする。
この条件に導かれ、ビデオ拡散モデルは、ディテール保存され、高い3D一貫性を示すビデオフレームを合成する。
論文 参考訳(メタデータ) (2024-08-29T17:59:40Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - 3D-aware Image Synthesis via Learning Structural and Textural
Representations [39.681030539374994]
生成モデルを作成することは、2D画像空間と3D物理世界を橋渡しするが、まだ難しい。
近年、GAN(Generative Adversarial Network)とNeRF(Neural Radiance Field)という3次元座標をピクセル値にマッピングする手法が試みられている。
本稿では,構造表現とテクスチャ表現を明示的に学習することで,高忠実度3次元画像合成のための新しいフレームワーク,VolumeGANを提案する。
論文 参考訳(メタデータ) (2021-12-20T18:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。