論文の概要: DT-NVS: Diffusion Transformers for Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2511.08823v1
- Date: Thu, 13 Nov 2025 01:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.24252
- Title: DT-NVS: Diffusion Transformers for Novel View Synthesis
- Title(参考訳): DT-NVS:新しいビュー合成のための拡散変換器
- Authors: Wonbong Jang, Jonathan Tremblay, Lourdes Agapito,
- Abstract要約: 一般化された新規ビュー合成のための3次元拡散モデルを提案する。
画像から3次元表現へ変換するトランスフォーマーと自己認識アーキテクチャに多大な貢献をする。
現状の3D認識拡散モデルと決定論的アプローチの改善を示す。
- 参考スコア(独自算出の注目度): 22.458328201080715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating novel views of a natural scene, e.g., every-day scenes both indoors and outdoors, from a single view is an under-explored problem, even though it is an organic extension to the object-centric novel view synthesis. Existing diffusion-based approaches focus rather on small camera movements in real scenes or only consider unnatural object-centric scenes, limiting their potential applications in real-world settings. In this paper we move away from these constrained regimes and propose a 3D diffusion model trained with image-only losses on a large-scale dataset of real-world, multi-category, unaligned, and casually acquired videos of everyday scenes. We propose DT-NVS, a 3D-aware diffusion model for generalized novel view synthesis that exploits a transformer-based architecture backbone. We make significant contributions to transformer and self-attention architectures to translate images to 3d representations, and novel camera conditioning strategies to allow training on real-world unaligned datasets. In addition, we introduce a novel training paradigm swapping the role of reference frame between the conditioning image and the sampled noisy input. We evaluate our approach on the 3D task of generalized novel view synthesis from a single input image and show improvements over state-of-the-art 3D aware diffusion models and deterministic approaches, while generating diverse outputs.
- Abstract(参考訳): 自然界の新たな景観(例えば、屋内と屋外の両方で毎日の風景)を単一の視点から生成することは、オブジェクト中心の斬新な景観合成の有機的拡張であるにもかかわらず、未調査の問題である。
既存の拡散ベースのアプローチは、実際のシーンでの小さなカメラの動きよりも、非自然なオブジェクト中心のシーンのみを考慮し、現実の環境での潜在的な応用を制限する。
本稿では,これらの制約された状況から脱却し,実世界,マルチカテゴリ,アンアライメント,カジュアルに獲得した日常シーンの大規模データセットに対して,画像のみの損失を学習した3次元拡散モデルを提案する。
本稿では,変換器をベースとしたアーキテクチャバックボーンを利用した,一般化された新規ビュー合成のための3次元拡散モデルDT-NVSを提案する。
画像から3D表現に変換するトランスフォーマーと自己注意アーキテクチャ、および実世界の非整合データセットのトレーニングを可能にする新しいカメラ条件付け戦略に多大な貢献をしている。
さらに,条件付き画像とサンプル雑音入力との間の参照フレームの役割を交換する新たな訓練パラダイムを導入する。
我々は,単一入力画像からの一般化された新規ビュー合成の3次元課題に対するアプローチを評価し,多種多様な出力を生成するとともに,最先端の3次元認識拡散モデルと決定論的アプローチの改善を示す。
関連論文リスト
- LiftRefine: Progressively Refined View Synthesis from 3D Lifting with Volume-Triplane Representations [21.183524347952762]
単視点または少数視点の入力画像から3次元のニューラルフィールドを用いた新しいビュー合成法を提案する。
我々の再構成モデルはまず、粗いスケールの3D表現として1つ以上の入力画像をボリュームから3D空間に持ち上げる。
我々の拡散モデルは、三面体からのレンダリング画像に欠けている詳細を幻覚させる。
論文 参考訳(メタデータ) (2024-12-19T02:23:55Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - Consistent-1-to-3: Consistent Image to 3D View Synthesis via Geometry-aware Diffusion Models [16.326276673056334]
Consistent-1-to-3は、この問題を著しく緩和する生成フレームワークである。
我々はNVSタスクを,(i)観察された領域を新しい視点に変換する,(ii)見えない領域を幻覚させる,の2つの段階に分解する。
本稿では,幾何制約を取り入れ,多視点情報をよりよく集約するための多視点アテンションとして,エピポラ誘導型アテンションを用いることを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:57Z) - Generative Novel View Synthesis with 3D-Aware Diffusion Models [96.78397108732233]
単一入力画像から3D対応の新規ビュー合成のための拡散モデルを提案する。
提案手法は既存の2次元拡散バックボーンを利用するが,重要な点として,幾何学的先行を3次元特徴体積の形で組み込む。
新たなビュー生成に加えて,本手法は3次元一貫性シーケンスを自己回帰的に合成する機能を備えている。
論文 参考訳(メタデータ) (2023-04-05T17:15:47Z) - Novel View Synthesis with Diffusion Models [56.55571338854636]
本稿では,3Dノベルビュー合成のための拡散モデルである3DiMを提案する。
単一のインプットビューを多くのビューで一貫したシャープな補完に変換することができる。
3DiMは、条件付けと呼ばれる新しい技術を使って、3D一貫性のある複数のビューを生成することができる。
論文 参考訳(メタデータ) (2022-10-06T16:59:56Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。