論文の概要: Light Field Diffusion for Single-View Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2309.11525v3
- Date: Tue, 12 Mar 2024 03:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 01:45:13.953876
- Title: Light Field Diffusion for Single-View Novel View Synthesis
- Title(参考訳): 単視点新規ビュー合成のための光拡散
- Authors: Yifeng Xiong, Haoyu Ma, Shanlin Sun, Kun Han, Hao Tang, Xiaohui Xie
- Abstract要約: NVS(Single-view novel view synthesis)は、コンピュータビジョンにおいて重要であるが困難である。
NVSの最近の進歩は、高忠実度画像を生成するのに優れた能力として、Denoising Diffusion Probabilistic Models (DDPMs)を活用している。
光電界拡散(LFD)は,従来のカメラポーズ行列への依存を超越した,条件拡散に基づく新しいアプローチである。
- 参考スコア(独自算出の注目度): 32.59286750410843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-view novel view synthesis (NVS), the task of generating images from
new viewpoints based on a single reference image, is important but challenging
in computer vision. Recent advancements in NVS have leveraged Denoising
Diffusion Probabilistic Models (DDPMs) for their exceptional ability to produce
high-fidelity images. However, current diffusion-based methods typically
utilize camera pose matrices to globally and implicitly enforce 3D constraints,
which can lead to inconsistencies in images generated from varying viewpoints,
particularly in regions with complex textures and structures.
To address these limitations, we present Light Field Diffusion (LFD), a novel
conditional diffusion-based approach that transcends the conventional reliance
on camera pose matrices. Starting from the camera pose matrices, LFD transforms
them into light field encoding, with the same shape as the reference image, to
describe the direction of each ray. By integrating light field encoding with
the reference image, our method imposes local pixel-wise constraints within the
diffusion process, fostering enhanced view consistency. Our approach not only
involves training image LFD on the ShapeNet Car dataset but also includes
fine-tuning a pre-trained latent diffusion model on the Objaverse dataset. This
enables our latent LFD model to exhibit remarkable zero-shot generalization
capabilities across out-of-distribution datasets like RTMV as well as
in-the-wild images. Experiments demonstrate that LFD not only produces
high-fidelity images but also achieves superior 3D consistency in complex
regions, outperforming existing novel view synthesis methods.
- Abstract(参考訳): 単一の参照画像に基づいて新たな視点から画像を生成する作業であるNVS(Single-view novel view synthesis)は、コンピュータビジョンにおいて重要であるが困難である。
NVSの最近の進歩は、高忠実度画像を生成するのに優れた能力として、Denoising Diffusion Probabilistic Models (DDPMs)を活用している。
しかし、現在の拡散ベースの手法では、一般的にカメラのポーズ行列を用いて3D制約をグローバルかつ暗黙的に強制し、特に複雑なテクスチャや構造を持つ領域において、様々な視点から生成された画像に矛盾をもたらす可能性がある。
これらの制約に対処するために,従来のカメラポーズ行列に依存する条件付き拡散に基づく新しいアプローチである光場拡散(LFD)を提案する。
カメラのポーズ行列から始め、LFDはそれらを基準画像と同じ形状の光場符号化に変換し、各光線の方向を記述する。
参照画像に光フィールドエンコーディングを統合することで、拡散プロセス内に局所的なピクセル単位の制約を課し、ビュー一貫性の強化を図る。
当社のアプローチでは,ShapeNet Carデータセット上でLFDをトレーニングするだけでなく,Objaverseデータセット上でトレーニング済みの潜伏拡散モデルを微調整する。
これにより、潜在lfdモデルがrtmvやin-the-wildイメージといった分散データセットにまたがる顕著なゼロショット一般化能力を発揮することができます。
実験により、LFDは高忠実度画像を生成するだけでなく、複雑な領域において優れた3D整合性を実現し、既存の新しいビュー合成法よりも優れていることが示された。
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Relightify: Relightable 3D Faces from a Single Image via Diffusion
Models [86.3927548091627]
単一画像からの3次元顔BRDF再構成を高精度に行うために,拡散モデルを用いた最初のアプローチを提案する。
既存の手法とは対照的に,観測されたテクスチャを直接入力画像から取得することで,より忠実で一貫した推定が可能となる。
論文 参考訳(メタデータ) (2023-05-10T11:57:49Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - DiffRF: Rendering-Guided 3D Radiance Field Diffusion [18.20324411024166]
本稿では,拡散確率モデルに基づく3次元放射場合成の新しい手法であるDiffRFを紹介する。
2次元拡散モデルとは対照的に、我々のモデルは多視点一貫した先行情報を学習し、自由視点合成と正確な形状生成を可能にする。
論文 参考訳(メタデータ) (2022-12-02T14:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。