論文の概要: Dynamic View Synthesis as an Inverse Problem
- arxiv url: http://arxiv.org/abs/2506.08004v1
- Date: Mon, 09 Jun 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.109366
- Title: Dynamic View Synthesis as an Inverse Problem
- Title(参考訳): 逆問題としての動的ビュー合成
- Authors: Hidir Yesiltepe, Pinar Yanardag,
- Abstract要約: 単眼ビデオからの動的ビュー合成をトレーニング不要環境における逆問題として扱う。
K次再帰雑音表現と呼ばれる新しい雑音表現を導入する。
カメラの動きから新たに見える領域を合成するために,ラテント変調を導入する。
- 参考スコア(独自算出の注目度): 3.7599363231894185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address dynamic view synthesis from monocular videos as an inverse problem in a training-free setting. By redesigning the noise initialization phase of a pre-trained video diffusion model, we enable high-fidelity dynamic view synthesis without any weight updates or auxiliary modules. We begin by identifying a fundamental obstacle to deterministic inversion arising from zero-terminal signal-to-noise ratio (SNR) schedules and resolve it by introducing a novel noise representation, termed K-order Recursive Noise Representation. We derive a closed form expression for this representation, enabling precise and efficient alignment between the VAE-encoded and the DDIM inverted latents. To synthesize newly visible regions resulting from camera motion, we introduce Stochastic Latent Modulation, which performs visibility aware sampling over the latent space to complete occluded regions. Comprehensive experiments demonstrate that dynamic view synthesis can be effectively performed through structured latent manipulation in the noise initialization phase.
- Abstract(参考訳): 本研究では,単眼ビデオからの動的ビュー合成を,トレーニングフリー環境での逆問題として扱う。
事前学習したビデオ拡散モデルのノイズ初期化フェーズを再設計することにより、重み付けや補助モジュールを使わずに高忠実度ダイナミックビュー合成を可能にする。
まず、ゼロ終端信号-雑音比(SNR)のスケジュールから生じる決定論的逆転の基本的な障害を特定し、K次再帰雑音表現(K-order Recursive noise Representation)と呼ばれる新しいノイズ表現を導入して解決する。
この表現のクローズドフォーム式を導出し,VAE符号化とDDIM反転潜水器の高精度かつ効率的なアライメントを可能にする。
カメラの動きから新たに見える領域を合成するため,Stochastic Latent Modulationを導入する。
総合的な実験により、ノイズ初期化フェーズにおける構造化潜在操作により動的ビュー合成を効果的に行うことができることを示した。
関連論文リスト
- SHaDe: Compact and Consistent Dynamic 3D Reconstruction via Tri-Plane Deformation and Latent Diffusion [0.0]
本稿では3つの重要な要素を統合した動的3次元シーン再構成のための新しいフレームワークを提案する。
明示的な三面変形場、球面調和(SH)注目の視野条件付き正準場、時間的に認識される潜在拡散。
提案手法は,時間とともに進化する3つの2次元特徴面を用いて4次元シーンを符号化し,効率的なコンパクト表現を実現する。
論文 参考訳(メタデータ) (2025-05-22T11:25:38Z) - JointTuner: Appearance-Motion Adaptive Joint Training for Customized Video Generation [13.168628936598367]
JointTunerは、新しい適応型ジョイントトレーニングフレームワークである。
我々は文脈認識型ゲーティング機構を組み込んだAdaptive LoRAを開発した。
内在性外見から運動パターンを分離するために出現非依存の時間損失を導入する。
論文 参考訳(メタデータ) (2025-03-31T11:04:07Z) - Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling [70.34875558830241]
本研究では,シーンをレンダリングする動的領域の階層化モデリングを可能にする意味的セマンティックギアに基づく,時間的(4D)埋め込みの学習方法を提案する。
同時に、ほぼ無償で、当社のトラッキングアプローチは、既存のNeRFベースのメソッドでまだ達成されていない機能である、自由視点(free-view of interest)を可能にします。
論文 参考訳(メタデータ) (2024-06-06T03:37:39Z) - NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer [48.57740681957145]
そこで本研究では,テキストを不要に操作する新しいビュー合成(NVS)パラダイムを提案する。
NVS-rは、所定のビューで拡散サンプリングプロセスを適応的に変調し、目覚しい視覚体験の作成を可能にする。
論文 参考訳(メタデータ) (2024-05-24T08:56:19Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - IntrinsicNeRF: Learning Intrinsic Neural Radiance Fields for Editable
Novel View Synthesis [90.03590032170169]
内在性ニューラルレンダリング法に内在性分解を導入した内在性ニューラルレイディアンス場(IntrinsicNeRF)を提案する。
そこで,本研究では,オブジェクト固有・ルームスケールシーンと合成・実単語データの両方を用いて,一貫した本質的な分解結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-02T22:45:11Z) - Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。
カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文 参考訳(メタデータ) (2021-05-13T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。