論文の概要: NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as
General Image Priors
- arxiv url: http://arxiv.org/abs/2212.03267v1
- Date: Tue, 6 Dec 2022 19:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:06:39.649734
- Title: NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as
General Image Priors
- Title(参考訳): NeRDi: 一般画像として言語誘導拡散を用いた単一視点NeRF合成
- Authors: Congyue Deng, Chiyu "Max'' Jiang, Charles R. Qi, Xinchen Yan, Yin
Zhou, Leonidas Guibas, Dragomir Anguelov
- Abstract要約: 本研究では,2次元拡散モデルから一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。
市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。
In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。
- 参考スコア(独自算出の注目度): 24.05480789681139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 2D-to-3D reconstruction is an ill-posed problem, yet humans are good at
solving this problem due to their prior knowledge of the 3D world developed
over years. Driven by this observation, we propose NeRDi, a single-view NeRF
synthesis framework with general image priors from 2D diffusion models.
Formulating single-view reconstruction as an image-conditioned 3D generation
problem, we optimize the NeRF representations by minimizing a diffusion loss on
its arbitrary view renderings with a pretrained image diffusion model under the
input-view constraint. We leverage off-the-shelf vision-language models and
introduce a two-section language guidance as conditioning inputs to the
diffusion model. This is essentially helpful for improving multiview content
coherence as it narrows down the general image prior conditioned on the
semantic and visual features of the single-view input image. Additionally, we
introduce a geometric loss based on estimated depth maps to regularize the
underlying 3D geometry of the NeRF. Experimental results on the DTU MVS dataset
show that our method can synthesize novel views with higher quality even
compared to existing methods trained on this dataset. We also demonstrate our
generalizability in zero-shot NeRF synthesis for in-the-wild images.
- Abstract(参考訳): 2dから3dへの再構築は不適切な問題であるが、人類は長年にわたって発展してきた3d世界の知識のためにこの問題をうまく解決できる。
この観測により,2次元拡散モデルからの一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。
画像条件付き3次元生成問題として単一ビュー再構成を定式化し,任意のビューレンダリングにおける拡散損失を最小化し,入力-ビュー制約下で予め訓練された画像拡散モデルを用いてnrf表現を最適化する。
市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。
これは、シングルビュー入力画像の意味的特徴と視覚的特徴に基づいて、一般的なイメージを絞り込むため、本質的にはマルチビューコンテンツコヒーレンスを改善するのに役立つ。
さらに,NeRFの基底となる3次元形状を正規化するために,推定深度マップに基づく幾何損失を導入する。
DTU MVSデータセットを用いた実験結果から,本手法は既存の手法と比較して,高品質な新規ビューを合成可能であることが示された。
In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。
関連論文リスト
- Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - ReconFusion: 3D Reconstruction with Diffusion Priors [104.73604630145847]
本稿では,数枚の写真を用いて現実のシーンを再構成するReconFusionを提案する。
提案手法は,合成および多視点データセットに基づいて訓練された新規なビュー合成に先立って拡散を利用する。
本手法は,観測領域の外観を保ちながら,非拘束領域における現実的な幾何学とテクスチャを合成する。
論文 参考訳(メタデータ) (2023-12-05T18:59:58Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Aug-NeRF: Training Stronger Neural Radiance Fields with Triple-Level
Physically-Grounded Augmentations [111.08941206369508]
我々は,NeRFトレーニングの正規化にロバストなデータ拡張のパワーを初めてもたらすAugmented NeRF(Aug-NeRF)を提案する。
提案手法では,最悪の場合の摂動を3段階のNeRFパイプラインにシームレスにブレンドする。
Aug-NeRFは、新しいビュー合成と基礎となる幾何再構成の両方において、NeRF性能を効果的に向上させる。
論文 参考訳(メタデータ) (2022-07-04T02:27:07Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - NeRF-VAE: A Geometry Aware 3D Scene Generative Model [14.593550382914767]
本研究では,NeRFによる幾何学的構造を組み込んだ3次元シーン生成モデルNeRF-VAEを提案する。
NeRF-VAEの明示的な3Dレンダリングプロセスは、以前の生成モデルと畳み込みベースのレンダリングとを対比する。
トレーニングが完了すると、NeRF-VAEは以前に見つからなかった3D環境から幾何学的に一貫性のあるシーンを推測、描画できることを示す。
論文 参考訳(メタデータ) (2021-04-01T16:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。