論文の概要: CausNVS: Autoregressive Multi-view Diffusion for Flexible 3D Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2509.06579v1
- Date: Mon, 08 Sep 2025 11:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.100426
- Title: CausNVS: Autoregressive Multi-view Diffusion for Flexible 3D Novel View Synthesis
- Title(参考訳): CausNVS:フレキシブル3次元新規ビュー合成のための自己回帰多視点拡散
- Authors: Xin Kong, Daniel Watson, Yannick Strümpler, Michael Niemeyer, Federico Tombari,
- Abstract要約: CausNVSは自動回帰設定における多視点拡散モデルである。
任意の入出力ビュー設定をサポートし、順次ビューを生成する。
多様な設定で一貫した視覚的品質を実現する。
- 参考スコア(独自算出の注目度): 48.43677384182078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view diffusion models have shown promise in 3D novel view synthesis, but most existing methods adopt a non-autoregressive formulation. This limits their applicability in world modeling, as they only support a fixed number of views and suffer from slow inference due to denoising all frames simultaneously. To address these limitations, we propose CausNVS, a multi-view diffusion model in an autoregressive setting, which supports arbitrary input-output view configurations and generates views sequentially. We train CausNVS with causal masking and per-frame noise, using pairwise-relative camera pose encodings (CaPE) for precise camera control. At inference time, we combine a spatially-aware sliding-window with key-value caching and noise conditioning augmentation to mitigate drift. Our experiments demonstrate that CausNVS supports a broad range of camera trajectories, enables flexible autoregressive novel view synthesis, and achieves consistently strong visual quality across diverse settings. Project page: https://kxhit.github.io/CausNVS.html.
- Abstract(参考訳): マルチビュー拡散モデルは、3次元の新規なビュー合成において有望であるが、既存のほとんどの手法では非自己回帰的定式化を採用している。
これにより、固定数のビューしかサポートせず、すべてのフレームを同時に飾ることによって推論が遅くなるため、ワールドモデリングにおける適用性が制限される。
これらの制約に対処するために,任意の入出力ビュー設定をサポートし,順次ビューを生成する自動回帰設定における多視点拡散モデルであるCausNVSを提案する。
我々はCausNVSを因果マスキングとフレームごとのノイズで訓練し、ペアワイズ・リレーショナル・カメラ・ポーズ・エンコーディング(CaPE)を用いて正確なカメラ制御を行う。
推定時,空間認識型スライドウインドウとキー値キャッシングと雑音条件強化を組み合わせることでドリフトを緩和する。
実験により,CausNVSは広い範囲のカメラトラジェクトリをサポートし,フレキシブルな自己回帰型ノベルビュー合成を実現し,多様な設定で一貫した視覚的品質を実現することができた。
プロジェクトページ: https://kxhit.github.io/CausNVS.html
関連論文リスト
- OmniView: An All-Seeing Diffusion Model for 3D and 4D View Synthesis [80.3346344429389]
OmniViewは、広範囲な4D一貫性タスクを一般化する統合フレームワークです。
提案手法は空間,時間,ビュー条件を別々に表現し,これらの入力の柔軟な組み合わせを可能にする。
例えば、OmniViewは静的、動的、マルチビューの入力から新しいビューを合成し、軌跡を前後に外挿し、フルカメラコントロールでテキストや画像プロンプトからビデオを作成することができる。
論文 参考訳(メタデータ) (2025-12-11T18:59:05Z) - CloseUpShot: Close-up Novel View Synthesis from Sparse-views via Point-conditioned Diffusion Model [50.93869080795228]
3Dシーンを再構築し、スパースインプットビューから新しいビューを合成することは、非常に難しい作業である。
ビデオ拡散モデルの最近の進歩は、強い時間的推論能力を示している。
点条件付きビデオ拡散によるスパース入力からのクローズアップ新規ビュー合成のための拡散に基づくフレームワークであるCloseUpShotを提案する。
論文 参考訳(メタデータ) (2025-11-17T08:20:06Z) - Scaling Sequence-to-Sequence Generative Neural Rendering [37.23230422802279]
Kaleidoは、フォトリアリスティック、統一オブジェクト、シーンレベルのニューラルレンダリングのために設計された生成モデルのファミリーである。
モデルを可能にする重要なアーキテクチャ革新を紹介します。
明示的な3D表現なしで生成的なビュー合成を行う。
参照ビューの任意の数で条件付き6-DoFターゲットビューを生成します。
シームレスに3Dおよびビデオモデリングを1つのデコーダのみの整流トランスに統一する。
論文 参考訳(メタデータ) (2025-10-05T15:03:31Z) - ARSS: Taming Decoder-only Autoregressive Visual Generation for View Synthesis From Single View [11.346049532150127]
textbfARSSは、カメラの軌跡に条件付けされた単一の画像から新しいビューを生成するフレームワークである。
本手法は,拡散モデルに基づく最先端のビュー合成手法に比較可能か,あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2025-09-27T00:03:09Z) - Look Beyond: Two-Stage Scene View Generation via Panorama and Video Diffusion [2.5479056464266994]
単一画像からの新規なビュー合成(NVS)は、大きな未観測領域のため、高度に強調される。
単一視点のNVSを360度のシーン外挿に分解し,それに対応するモデルを提案する。
提案手法は,ユーザ定義トラジェクトリに沿ってコヒーレントなビューを生成する既存手法よりも優れている。
論文 参考訳(メタデータ) (2025-08-31T13:27:15Z) - Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。
本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。
提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-17T17:59:17Z) - AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views [57.13066710710485]
AnySplatは、未校正画像コレクションから新しいビューを合成するためのフィードフォワードネットワークである。
単一のフォワードパスは、シーン幾何学と外観の両方をコードする3Dガウスプリミティブのセットを生成する。
広範囲なゼロショット評価では、AnySplatはスパースと高密度の両方のビューシナリオにおいて、ポーズを意識するベースラインの品質にマッチする。
論文 参考訳(メタデータ) (2025-05-29T17:49:56Z) - Stable Virtual Camera: Generative View Synthesis with Diffusion Models [51.71244310522393]
本稿では,シーンの新たなビューを生成する汎用拡散モデルであるスタブルバーチャルカメラ(Seva)を紹介する。
このアプローチは、シンプルなモデル設計、最適化されたトレーニングレシピ、柔軟なサンプリング戦略によってこれらの制限を克服する。
提案手法では,シームレスなループ閉鎖により,最大半分間の高品質なビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-18T17:57:22Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。