論文の概要: Light Field Diffusion for Single-View Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2309.11525v1
- Date: Wed, 20 Sep 2023 03:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:12:28.328131
- Title: Light Field Diffusion for Single-View Novel View Synthesis
- Title(参考訳): 単視点新規ビュー合成のための光拡散
- Authors: Yifeng Xiong, Haoyu Ma, Shanlin Sun, Kun Han, Xiaohui Xie
- Abstract要約: シングルビューの新規ビュー合成はコンピュータビジョンにおいて重要な課題であるが難しい課題である。
単一ビュー新規ビュー合成のための条件付き拡散モデルである光場拡散について述べる。
- 参考スコア(独自算出の注目度): 29.06144294950867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-view novel view synthesis, the task of generating images from new
viewpoints based on a single reference image, is an important but challenging
task in computer vision. Recently, Denoising Diffusion Probabilistic Model
(DDPM) has become popular in this area due to its strong ability to generate
high-fidelity images. However, current diffusion-based methods directly rely on
camera pose matrices as viewing conditions, globally and implicitly introducing
3D constraints. These methods may suffer from inconsistency among generated
images from different perspectives, especially in regions with intricate
textures and structures. In this work, we present Light Field Diffusion (LFD),
a conditional diffusion-based model for single-view novel view synthesis.
Unlike previous methods that employ camera pose matrices, LFD transforms the
camera view information into light field encoding and combines it with the
reference image. This design introduces local pixel-wise constraints within the
diffusion models, thereby encouraging better multi-view consistency.
Experiments on several datasets show that our LFD can efficiently generate
high-fidelity images and maintain better 3D consistency even in intricate
regions. Our method can generate images with higher quality than NeRF-based
models, and we obtain sample quality similar to other diffusion-based models
but with only one-third of the model size.
- Abstract(参考訳): 単一の参照画像に基づいて新たな視点から画像を生成する単一視点新規ビュー合成は,コンピュータビジョンにおいて重要な課題であるが難しい課題である。
近年,高忠実度画像を生成する能力が強かったため,この領域ではデノイジン拡散確率モデル(ddpm)が普及している。
しかし、現在の拡散に基づく方法は、カメラのポーズ行列を直接観察条件として、グローバルかつ暗黙的に3d制約を導入する。
これらの方法は、特に複雑なテクスチャや構造を持つ領域において、異なる視点から生成された画像間の一貫性に苦しむ可能性がある。
本研究では,単一ビュー新規ビュー合成のための条件付き拡散モデルである光場拡散(LFD)を提案する。
カメラポーズ行列を用いた従来の方法とは異なり、LFDはカメラビュー情報を光フィールド符号化に変換し、参照画像と組み合わせる。
この設計は拡散モデルに局所的な画素幅の制約を導入し、マルチビューの一貫性を向上させる。
いくつかのデータセットの実験では、LFDは高忠実度画像を効率よく生成し、複雑な領域でもより良い3D一貫性を維持することができる。
本手法は,nrfベースモデルよりも高品質な画像を生成することができ,他の拡散ベースモデルと類似したサンプル品質が得られるが,モデルサイズは3分の1に過ぎない。
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Relightify: Relightable 3D Faces from a Single Image via Diffusion
Models [86.3927548091627]
単一画像からの3次元顔BRDF再構成を高精度に行うために,拡散モデルを用いた最初のアプローチを提案する。
既存の手法とは対照的に,観測されたテクスチャを直接入力画像から取得することで,より忠実で一貫した推定が可能となる。
論文 参考訳(メタデータ) (2023-05-10T11:57:49Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - DiffRF: Rendering-Guided 3D Radiance Field Diffusion [18.20324411024166]
本稿では,拡散確率モデルに基づく3次元放射場合成の新しい手法であるDiffRFを紹介する。
2次元拡散モデルとは対照的に、我々のモデルは多視点一貫した先行情報を学習し、自由視点合成と正確な形状生成を可能にする。
論文 参考訳(メタデータ) (2022-12-02T14:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。