論文の概要: CloseUpShot: Close-up Novel View Synthesis from Sparse-views via Point-conditioned Diffusion Model
- arxiv url: http://arxiv.org/abs/2511.13121v1
- Date: Mon, 17 Nov 2025 08:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.999441
- Title: CloseUpShot: Close-up Novel View Synthesis from Sparse-views via Point-conditioned Diffusion Model
- Title(参考訳): CloseUpShot:ポイント条件拡散モデルによるスパースビューからのクローズアップ新しいビュー合成
- Authors: Yuqi Zhang, Guanying Chen, Jiaxing Chen, Chuanyu Fu, Chuan Huang, Shuguang Cui,
- Abstract要約: 3Dシーンを再構築し、スパースインプットビューから新しいビューを合成することは、非常に難しい作業である。
ビデオ拡散モデルの最近の進歩は、強い時間的推論能力を示している。
点条件付きビデオ拡散によるスパース入力からのクローズアップ新規ビュー合成のための拡散に基づくフレームワークであるCloseUpShotを提案する。
- 参考スコア(独自算出の注目度): 50.93869080795228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D scenes and synthesizing novel views from sparse input views is a highly challenging task. Recent advances in video diffusion models have demonstrated strong temporal reasoning capabilities, making them a promising tool for enhancing reconstruction quality under sparse-view settings. However, existing approaches are primarily designed for modest viewpoint variations, which struggle in capturing fine-grained details in close-up scenarios since input information is severely limited. In this paper, we present a diffusion-based framework, called CloseUpShot, for close-up novel view synthesis from sparse inputs via point-conditioned video diffusion. Specifically, we observe that pixel-warping conditioning suffers from severe sparsity and background leakage in close-up settings. To address this, we propose hierarchical warping and occlusion-aware noise suppression, enhancing the quality and completeness of the conditioning images for the video diffusion model. Furthermore, we introduce global structure guidance, which leverages a dense fused point cloud to provide consistent geometric context to the diffusion process, to compensate for the lack of globally consistent 3D constraints in sparse conditioning inputs. Extensive experiments on multiple datasets demonstrate that our method outperforms existing approaches, especially in close-up novel view synthesis, clearly validating the effectiveness of our design.
- Abstract(参考訳): 3Dシーンを再構築し、スパースインプットビューから新しいビューを合成することは、非常に難しい作業である。
近年,映像拡散モデルの進歩により時間的推論能力が向上し,疎視環境下での再生品質向上に寄与している。
しかし、既存のアプローチは、入力情報が著しく制限されているため、クローズアップシナリオにおけるきめ細かい詳細を捉えるのに苦労する、控えめな視点変化のために主に設計されている。
本稿では,ポイント条件付きビデオ拡散によるスパース入力からのクローズアップなビュー合成のための拡散に基づくフレームワークであるCloseUpShotを提案する。
具体的には、画素ウォーピング条件が、クローズアップ設定において、重度のスパーシリティと背景リークに悩まされていることを観察する。
そこで本研究では,映像拡散モデルにおける条件付き画像の品質と完全性を高めるため,階層的なワーピングとオクルージョン対応ノイズ抑圧を提案する。
さらに,疎条件入力における一貫した3次元制約の欠如を補うために,高密度融点雲を利用して拡散過程に一貫した幾何学的文脈を提供するグローバル構造ガイダンスを導入する。
複数のデータセットに対する大規模な実験により,提案手法は既存のアプローチ,特にクローズアップなビュー合成において優れており,設計の有効性が明確に検証されている。
関連論文リスト
- DT-NVS: Diffusion Transformers for Novel View Synthesis [22.458328201080715]
一般化された新規ビュー合成のための3次元拡散モデルを提案する。
画像から3次元表現へ変換するトランスフォーマーと自己認識アーキテクチャに多大な貢献をする。
現状の3D認識拡散モデルと決定論的アプローチの改善を示す。
論文 参考訳(メタデータ) (2025-11-11T22:40:00Z) - MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis [34.793258395288895]
モノクロフルボディキャプチャーから新しいビュービデオを作成するための革新的なフレームワークであるMV-Performerを提案する。
360度合成を実現するために、MVHumanNetデータセットを広範囲に活用し、情報伝達条件信号を取り込む。
生成したビデオの同期を維持するために,多視点の人間中心ビデオ拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-10-08T16:24:22Z) - WAVE: Warp-Based View Guidance for Consistent Novel View Synthesis Using a Single Image [3.4248731707266264]
本稿では,モジュールを追加せずに拡散モデルを利用するビュー一貫性画像生成手法を提案する。
我々のキーとなる考え方は、適応的な注意操作と雑音の再生を可能にする訓練不要な手法で拡散モデルを強化することである。
本手法は,様々な拡散モデル間での視界の整合性を向上し,その適用性を示す。
論文 参考訳(メタデータ) (2025-06-30T05:00:47Z) - Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - ViewFusion: Learning Composable Diffusion Models for Novel View Synthesis [47.0052408875896]
ViewFusionは、非並列な柔軟性を備えた新しいビュー合成に対するエンドツーエンドのジェネレーティブアプローチである。
本手法は比較的小さなNeural 3D Mesh Rendererデータセットで検証する。
論文 参考訳(メタデータ) (2024-02-05T11:22:14Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。