論文の概要: DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
- arxiv url: http://arxiv.org/abs/2412.11100v1
- Date: Sun, 15 Dec 2024 07:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:31.099285
- Title: DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
- Title(参考訳): DynamicScaler:パノラマシーンのためのシームレスでスケーラブルなビデオ生成
- Authors: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang,
- Abstract要約: DynamicScalerは空間的スケーラブルでパノラマ的な動的シーン合成を可能にする。
我々は,局所的な詳細性とグローバルな動き継続性を両立させるため,Global Motion Guidance機構を採用している。
本手法はパノラマシーンレベルの映像生成において,優れた内容と動作品質を実現する。
- 参考スコア(独自算出の注目度): 46.91656616577897
- License:
- Abstract: The increasing demand for immersive AR/VR applications and spatial intelligence has heightened the need to generate high-quality scene-level and 360{\deg} panoramic video. However, most video diffusion models are constrained by limited resolution and aspect ratio, which restricts their applicability to scene-level dynamic content synthesis. In this work, we propose the DynamicScaler, addressing these challenges by enabling spatially scalable and panoramic dynamic scene synthesis that preserves coherence across panoramic scenes of arbitrary size. Specifically, we introduce a Offset Shifting Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic dynamic scenes via a diffusion model with fixed resolution through a seamless rotating Window, which ensures seamless boundary transitions and consistency across the entire panoramic space, accommodating varying resolutions and aspect ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure both local detail fidelity and global motion continuity. Extensive experiments demonstrate our method achieves superior content and motion quality in panoramic scene-level video generation, offering a training-free, efficient, and scalable solution for immersive dynamic scene creation with constant VRAM consumption regardless of the output video resolution. Our project page is available at \url{https://dynamic-scaler.pages.dev/}.
- Abstract(参考訳): 没入型AR/VRアプリケーションや空間知能の需要の増加により、高品質のシーンレベルと360{\deg}パノラマビデオの作成の必要性が高まっている。
しかし、ほとんどのビデオ拡散モデルは解像度とアスペクト比に制限されており、シーンレベルの動的コンテンツ合成に適用性を制限する。
本研究では,任意の大きさのパノラマシーン間のコヒーレンスを保った空間的スケーラブルでパノラマな動的シーン合成を実現することで,これらの課題に対処するDynamicScalerを提案する。
特にオフセットシフトデノイザを導入し,パノラマダイナミックシーンの効率,同期性,コヒーレントな復調をシームレスに回転するウィンドウを通じて固定解像度の拡散モデルにより実現し,パノラマ空間全体のシームレスな境界遷移と整合性を確保し,様々な解像度とアスペクト比を調節する。
さらに,局所的な詳細性とグローバルな動き継続性を両立させるため,Global Motion Guidance機構を採用している。
広汎な実験により,パノラマシーンレベルの映像生成において,映像の出力解像度によらず常にVRAMを消費する動的シーン生成のためのトレーニング不要で,効率的でスケーラブルなソリューションが提供される。
プロジェクトのページは \url{https://dynamic-scaler.pages.dev/} で公開されている。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Modeling Ambient Scene Dynamics for Free-view Synthesis [31.233859111566613]
モノクルキャプチャから周囲のシーンを動的に自由視点で合成する手法を提案する。
本手法は, 複雑な静的シーンを忠実に再構築できる3次元ガウス散乱(3DGS)の最近の進歩に基づいている。
論文 参考訳(メタデータ) (2024-06-13T17:59:11Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Editable Free-viewpoint Video Using a Layered Neural Representation [35.44420164057911]
我々は,スパース16カメラのみを用いた大規模ダイナミックシーンの編集可能な自由視点映像生成のための最初のアプローチを提案する。
私たちのアプローチの核心は、環境そのものを含む各動的エンティティがST-NeRFと呼ばれる時空コヒーレントな神経層放射線表現に定式化される新しい階層化された神経表現です。
実験は,ダイナミックシーンにおける高品質,フォトリアリスティック,編集可能な自由視点映像生成を実現するための手法の有効性を示す。
論文 参考訳(メタデータ) (2021-04-30T06:50:45Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。