Fugu-MT 論文翻訳(概要): NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer

論文の概要: NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer

arxiv url: http://arxiv.org/abs/2405.15364v1
Date: Fri, 24 May 2024 08:56:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 15:11:32.812530
Title: NVS-Solver: Video Diffusion Model as Zero-Shot Novel View Synthesizer
Title（参考訳）: NVSソルバー:ゼロショット新規ビューシンセサイザーとしてのビデオ拡散モデル
Authors: Meng You, Zhiyu Zhu, Hui Liu, Junhui Hou,
Abstract要約: そこで本研究では,テキストを不要に操作する新しいビュー合成(NVS)パラダイムを提案する。 NVS-rは、所定のビューで拡散サンプリングプロセスを適応的に変調し、目覚しい視覚体験の作成を可能にする。
参考スコア（独自算出の注目度）: 48.57740681957145
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: By harnessing the potent generative capabilities of pre-trained large video diffusion models, we propose NVS-Solver, a new novel view synthesis (NVS) paradigm that operates \textit{without} the need for training. NVS-Solver adaptively modulates the diffusion sampling process with the given views to enable the creation of remarkable visual experiences from single or multiple views of static scenes or monocular videos of dynamic scenes. Specifically, built upon our theoretical modeling, we iteratively modulate the score function with the given scene priors represented with warped input views to control the video diffusion process. Moreover, by theoretically exploring the boundary of the estimation error, we achieve the modulation in an adaptive fashion according to the view pose and the number of diffusion steps. Extensive evaluations on both static and dynamic scenes substantiate the significant superiority of our NVS-Solver over state-of-the-art methods both quantitatively and qualitatively. \textit{ Source code in } \href{https://github.com/ZHU-Zhiyu/NVS_Solver}{https://github.com/ZHU-Zhiyu/NVS$\_$Solver}.
Abstract（参考訳）: 事前学習した大規模ビデオ拡散モデルの強力な生成能力を生かして,新しいビュー合成(NVS)パラダイムであるNVS-Solverを提案する。 NVS-Solverは、任意のビューで拡散サンプリングプロセスを適応的に調整し、静的シーンの1つまたは複数のビューや動的シーンのモノクロビデオから顕著な視覚体験を作成できるようにする。具体的には,我々の理論モデルに基づいて,映像拡散過程を制御するために,所与のシーンの先行をワープ入力ビューで表現したスコア関数を反復的に変調する。さらに,推定誤差の境界を理論的に探索することにより,ビューポーズと拡散ステップの数に応じて適応的に変調を実現する。静的シーンと動的シーンの両方における広範囲な評価は、NVS-Solverの最先端手法に対する有意な優位性を定量的および定性的に裏付ける。 \textit{ Source code in } \href{https://github.com/ZHU-Zhiyu/NVS_Solver}{https://github.com/ZHU-Zhiyu/NVS$\_$Solver}

関連論文リスト

Dynamic View Synthesis as an Inverse Problem [3.7599363231894185]
単眼ビデオからの動的ビュー合成をトレーニング不要環境における逆問題として扱う。 K次再帰雑音表現と呼ばれる新しい雑音表現を導入する。カメラの動きから新たに見える領域を合成するために,ラテント変調を導入する。
論文参考訳（メタデータ） (2025-06-09T17:59:47Z)
MOVIS: Enhancing Multi-Object Novel View Synthesis for Indoor Scenes [35.16430027877207]
MOVISは、多目的NVSのためのビュー条件拡散モデルの構造的認識を高めることを目的としている。本稿では,新しいビューオブジェクトマスクを同時に予測するためにモデルを必要とする補助タスクを提案する。提案手法は強力な一般化能力を示し,一貫した新規なビュー合成を生成する。
論文参考訳（メタデータ） (2024-12-16T05:23:45Z)
NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images [50.36605863731669]
NVComposerは、明示的な外部アライメントの必要性を排除する新しいアプローチである。 NVComposerは、生成的マルチビューNVSタスクにおいて最先端のパフォーマンスを達成する。提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上したことを示す。
論文参考訳（メタデータ） (2024-12-04T17:58:03Z)
SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input [6.275971782566314]
本研究では,SpatialDreamerと呼ばれるビデオ拡散モデルを用いて,自己監督型ステレオ合成ビデオパラダイムを提案する。ステレオビデオデータ不足に対処するため,Depth ベースのビデオ生成モジュール DVG を提案する。また,RefinerNetと,効率的で専用のトレーニングを容易にするための自己教師型合成フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-18T15:12:59Z)
Novel View Synthesis with Pixel-Space Diffusion Models [4.844800099745365]
新規ビュー合成(NVS)に遺伝子モデルがますます採用されている画素空間における終端NVSに対して,現代的な拡散モデルアーキテクチャを適用した。単視点データセットを利用した新しいNVSトレーニングスキームを導入し,その相対的多元性に着目した。
論文参考訳（メタデータ） (2024-11-12T12:58:33Z)
SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文参考訳（メタデータ） (2024-06-06T17:58:27Z)
Learning Spatial Adaptation and Temporal Coherence in Diffusion Models for Video Super-Resolution [151.1255837803585]
ビデオ超解像のための空間適応と時間コヒーレンス(SATeCo)を追求する新しい手法を提案する。 SATeCoは低解像度ビデオから時空間ガイダンスを学習し、潜時空間高解像度ビデオデノイングとピクセル空間ビデオ再構成の両方を校正する。 REDS4データセットとVid4データセットを用いて行った実験は、我々のアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-03-25T17:59:26Z)
Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文参考訳（メタデータ） (2024-01-10T23:26:41Z)
Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。 MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文参考訳（メタデータ） (2023-04-27T17:59:32Z)
Dynamic View Synthesis from Dynamic Monocular Video [69.80425724448344]
動的シーンの単眼映像を与えられた任意の視点と任意の入力時間ステップでビューを生成するアルゴリズムを提案する。カジュアルな映像からの動的ビュー合成の定量的および定性的な結果を示す。
論文参考訳（メタデータ） (2021-05-13T17:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。