論文の概要: Novel View Synthesis using DDIM Inversion
- arxiv url: http://arxiv.org/abs/2508.10688v1
- Date: Thu, 14 Aug 2025 14:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.358677
- Title: Novel View Synthesis using DDIM Inversion
- Title(参考訳): DDIMインバージョンを用いた新しいビュー合成
- Authors: Sehajdeep SIngh, A V Subramanyam,
- Abstract要約: 既存の多くのメソッドは、複数のビューを使用して大きな拡散バックボーンを微調整するか、あるいはスクラッチから拡散モデルを訓練する必要がある。
DDIMインバージョンで観測される固有雑音相関構造を利用した新しい融合手法を提案する。
新規な視点を合成するために, 拡散モデルに先行する生成性を利用して, DDIMサンプリングの初期条件として融合潜水剤を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing novel views from a single input image is a challenging task. It requires extrapolating the 3D structure of a scene while inferring details in occluded regions, and maintaining geometric consistency across viewpoints. Many existing methods must fine-tune large diffusion backbones using multiple views or train a diffusion model from scratch, which is extremely expensive. Additionally, they suffer from blurry reconstruction and poor generalization. This gap presents the opportunity to explore an explicit lightweight view translation framework that can directly utilize the high-fidelity generative capabilities of a pretrained diffusion model while reconstructing a scene from a novel view. Given the DDIM-inverted latent of a single input image, we employ a camera pose-conditioned translation U-Net, TUNet, to predict the inverted latent corresponding to the desired target view. However, the image sampled using the predicted latent may result in a blurry reconstruction. To this end, we propose a novel fusion strategy that exploits the inherent noise correlation structure observed in DDIM inversion. The proposed fusion strategy helps preserve the texture and fine-grained details. To synthesize the novel view, we use the fused latent as the initial condition for DDIM sampling, leveraging the generative prior of the pretrained diffusion model. Extensive experiments on MVImgNet demonstrate that our method outperforms existing methods.
- Abstract(参考訳): 単一の入力画像から新しいビューを合成することは難しい作業である。
シーンの3次元構造を外挿し、隠蔽領域の詳細を推測し、視点間の幾何的整合性を維持する必要がある。
既存の多くのメソッドは、複数のビューを使用して大きな拡散バックボーンを微調整するか、あるいはスクラッチから拡散モデルを訓練する必要がある。
また、ぼやけた再建や一般化の難しさに悩まされている。
このギャップは、新しい視点からシーンを再構築しながら、事前訓練された拡散モデルの高忠実度生成能力を直接活用できる、明示的な軽量なビュー翻訳フレームワークを探求する機会となる。
単入力画像のDDIM反転ラテントを考慮し、カメラポーズ条件付き翻訳U-Netを用いて、所望の目標ビューに対応する反転ラテントを予測する。
しかし、予測された潜伏剤を用いてサンプリングされた画像は、ぼやけた再構成をもたらす可能性がある。
そこで本研究では,DDIMインバージョンで観測される固有雑音相関構造を利用した新しい融合手法を提案する。
提案した融合戦略は、テクスチャと微細な詳細を保存するのに役立つ。
そこで本研究では, DDIMサンプリングの初期条件として可溶性潜水剤を用い, 予め訓練した拡散モデルに先立って生成する手法を応用した。
MVImgNetの大規模実験により,本手法が既存手法より優れていることが示された。
関連論文リスト
- LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling [23.886038479359918]
本稿では,事前学習した潜伏拡散モデルを用いた再帰サンプリングによるデータセットフリーで統一的な手法を提案する。
本手法では,マルチモーダル理解モデルを用いて,タスクブレンド条件下で生成モデルにセマンティックな事前情報を提供する。
論文 参考訳(メタデータ) (2025-07-01T14:25:09Z) - Decompositional Neural Scene Reconstruction with Generative Diffusion Prior [64.71091831762214]
完全な形状と詳細なテクスチャを持つ3次元シーンの分解的再構成は、下流の応用に興味深い。
近年のアプローチでは、この問題に対処するために意味的あるいは幾何学的正則化が取り入れられているが、制約の少ない領域では著しく劣化している。
本稿では,SDS(Score Distillation Sampling)の形で拡散先行値を用いたDP-Reconを提案し,新しい視点下で個々の物体の神経表現を最適化する。
論文 参考訳(メタデータ) (2025-03-19T02:11:31Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。