論文の概要: NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as
General Image Priors
- arxiv url: http://arxiv.org/abs/2212.03267v1
- Date: Tue, 6 Dec 2022 19:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:06:39.649734
- Title: NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as
General Image Priors
- Title(参考訳): NeRDi: 一般画像として言語誘導拡散を用いた単一視点NeRF合成
- Authors: Congyue Deng, Chiyu "Max'' Jiang, Charles R. Qi, Xinchen Yan, Yin
Zhou, Leonidas Guibas, Dragomir Anguelov
- Abstract要約: 本研究では,2次元拡散モデルから一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。
市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。
In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。
- 参考スコア(独自算出の注目度): 24.05480789681139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 2D-to-3D reconstruction is an ill-posed problem, yet humans are good at
solving this problem due to their prior knowledge of the 3D world developed
over years. Driven by this observation, we propose NeRDi, a single-view NeRF
synthesis framework with general image priors from 2D diffusion models.
Formulating single-view reconstruction as an image-conditioned 3D generation
problem, we optimize the NeRF representations by minimizing a diffusion loss on
its arbitrary view renderings with a pretrained image diffusion model under the
input-view constraint. We leverage off-the-shelf vision-language models and
introduce a two-section language guidance as conditioning inputs to the
diffusion model. This is essentially helpful for improving multiview content
coherence as it narrows down the general image prior conditioned on the
semantic and visual features of the single-view input image. Additionally, we
introduce a geometric loss based on estimated depth maps to regularize the
underlying 3D geometry of the NeRF. Experimental results on the DTU MVS dataset
show that our method can synthesize novel views with higher quality even
compared to existing methods trained on this dataset. We also demonstrate our
generalizability in zero-shot NeRF synthesis for in-the-wild images.
- Abstract(参考訳): 2dから3dへの再構築は不適切な問題であるが、人類は長年にわたって発展してきた3d世界の知識のためにこの問題をうまく解決できる。
この観測により,2次元拡散モデルからの一般的な画像の事前処理が可能な単一視点NeRF合成フレームワークNeRDiを提案する。
画像条件付き3次元生成問題として単一ビュー再構成を定式化し,任意のビューレンダリングにおける拡散損失を最小化し,入力-ビュー制約下で予め訓練された画像拡散モデルを用いてnrf表現を最適化する。
市販の視覚言語モデルを活用し、拡散モデルに条件付け入力として2節言語ガイダンスを導入する。
これは、シングルビュー入力画像の意味的特徴と視覚的特徴に基づいて、一般的なイメージを絞り込むため、本質的にはマルチビューコンテンツコヒーレンスを改善するのに役立つ。
さらに,NeRFの基底となる3次元形状を正規化するために,推定深度マップに基づく幾何損失を導入する。
DTU MVSデータセットを用いた実験結果から,本手法は既存の手法と比較して,高品質な新規ビューを合成可能であることが示された。
In-the-wild画像に対するゼロショットNeRF合成における一般化可能性も示す。
関連論文リスト
- MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation [28.079441901818296]
我々は,粒度の細かい視野の整合性を明示したNeRF(Neural Radiance Fields)のテキスト・ツー・3D手法を提案する。
本手法は,既存のテキスト・ツー・3D法に対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T01:09:49Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from
3D-aware Diffusion [107.67277084886929]
単一の画像からの新しいビュー合成には、オブジェクトやシーンの隠蔽領域を推論すると同時に、入力とのセマンティックおよび物理的整合性を同時に維持する必要がある。
そこで我々は,NerfDiffを提案する。NerfDiffは3D対応条件拡散モデル(CDM)の知識を,テスト時に仮想ビューの集合を合成・精製することで,NeRFに抽出することでこの問題に対処する。
さらに,CDMサンプルから3次元一貫した仮想ビューを同時に生成し,改良された仮想ビューに基づいてNeRFを微調整する新しいNeRF誘導蒸留アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-20T17:12:00Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。