論文の概要: DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
- arxiv url: http://arxiv.org/abs/2412.11100v2
- Date: Sun, 05 Oct 2025 03:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.186038
- Title: DynamicScaler: Seamless and Scalable Video Generation for Panoramic Scenes
- Title(参考訳): DynamicScaler:パノラマシーンのためのシームレスでスケーラブルなビデオ生成
- Authors: Jinxiu Liu, Shaoheng Lin, Yinxiao Li, Ming-Hsuan Yang,
- Abstract要約: オフセットシフトデノイザを導入し,パノラマダイナミックシーンの効率性,同期性,コヒーレント性を実現した。
我々は,局所的な詳細性とグローバルな動き継続性を両立させるため,Global Motion Guidance機構を採用している。
本手法はパノラマシーンレベルの映像生成において,優れた内容と動作品質を実現する。
- 参考スコア(独自算出の注目度): 41.82426677335845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for immersive AR/VR applications and spatial intelligence has heightened the need to generate high-quality scene-level and 360${\deg}$ panoramic video. However, most video diffusion models are constrained by limited resolution and aspect ratio, which restricts their applicability to scene-level dynamic content synthesis. In this work, we propose $\textbf{DynamicScaler}$, addressing these challenges by enabling spatially scalable and panoramic dynamic scene synthesis that preserves coherence across panoramic scenes of arbitrary size. Specifically, we introduce a Offset Shifting Denoiser, facilitating efficient, synchronous, and coherent denoising panoramic dynamic scenes via a diffusion model with fixed resolution through a seamless rotating Window, which ensures seamless boundary transitions and consistency across the entire panoramic space, accommodating varying resolutions and aspect ratios. Additionally, we employ a Global Motion Guidance mechanism to ensure both local detail fidelity and global motion continuity. Extensive experiments demonstrate our method achieves superior content and motion quality in panoramic scene-level video generation, offering a training-free, efficient, and scalable solution for immersive dynamic scene creation with constant VRAM consumption regardless of the output video resolution. Project page is available at $\href{https://dynamic-scaler.pages.dev/new}{https://dynamic-scaler.pages.dev/new}$.
- Abstract(参考訳): 没入型AR/VRアプリケーションと空間知能の需要の増加により、高品質のシーンレベルと360${\deg}$パノラマビデオの生成の必要性が高まっている。
しかし、ほとんどのビデオ拡散モデルは解像度とアスペクト比に制限されており、シーンレベルの動的コンテンツ合成に適用性を制限する。
本研究では,任意の大きさのパノラマシーン間のコヒーレンスを保った空間的スケーラブルでパノラマな動的シーン合成を実現することで,これらの課題に対処するため,$\textbf{DynamicScaler}$を提案する。
特にオフセットシフトデノイザを導入し,パノラマダイナミックシーンの効率,同期性,コヒーレントな復調をシームレスに回転するウィンドウを通じて固定解像度の拡散モデルにより実現し,パノラマ空間全体のシームレスな境界遷移と整合性を確保し,様々な解像度とアスペクト比を調節する。
さらに,局所的な詳細性とグローバルな動き継続性を両立させるため,Global Motion Guidance機構を採用している。
広汎な実験により,パノラマシーンレベルの映像生成において,映像の出力解像度によらず常にVRAMを消費する動的シーン生成のためのトレーニング不要で,効率的でスケーラブルなソリューションが提供される。
プロジェクトページは$\href{https://dynamic-scaler.pages.dev/new}{https://dynamic-scaler.pages.dev/new}$.comから入手できる。
関連論文リスト
- M2DAO-Talker: Harmonizing Multi-granular Motion Decoupling and Alternating Optimization for Talking-head Generation [65.08520614570288]
我々は,音声音声生成をビデオ前処理,モーション表現,レンダリング再構成を含む統一的なフレームワークに再構成する。
M2DAO-Talkerは2.43dBのPSNRの改善とユーザ評価ビデオの画質0.64アップで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-11T04:48:12Z) - LocalDyGS: Multi-view Global Dynamic Scene Modeling via Adaptive Local Implicit Feature Decoupling [33.71658540929536]
LocalDyGSは、任意の視点でマルチビューインプットから動的ビデオをモデル化する新しい手法である。
提案手法は, 最先端(SOTA)法と比較して, 各種細粒度データセットと競合する。
論文 参考訳(メタデータ) (2025-07-03T06:50:33Z) - PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms [41.92179513409301]
既存のパノラマビデオ生成モデルは、高品質なパノラマビデオのための従来のテキスト・ツー・ビデオ・モデルから事前訓練された生成先を活用するのに苦労している。
本稿では,パノラマ領域に最小限のモジュールを備えた事前学習されたテキスト・ビデオ・モデルを効果的に持ち上げるパノラマモデルを提案する。
これらの揚力表現を学習するためのパノラマビデオを提供するため、キャプションと多様なシナリオを備えた高品質なパノラマビデオデータセットであるPanoVidをコントリビュートする。
論文 参考訳(メタデータ) (2025-05-28T06:24:21Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - T-SVG: Text-Driven Stereoscopic Video Generation [87.62286959918566]
本稿では,テキスト駆動ステレオビデオ生成(T-SVG)システムを紹介する。
テキストプロンプトを使用してビデオ生成を合理化し、参照ビデオを作成する。
これらのビデオは、3Dポイントのクラウドシーケンスに変換され、微妙なパララックス差のある2つの視点からレンダリングされる。
論文 参考訳(メタデータ) (2024-12-12T14:48:46Z) - DiffMVR: Diffusion-based Automated Multi-Guidance Video Restoration [10.637125300701795]
拡散型ビデオレベルの塗装モデルDiffMVRを提案する。
提案手法では,動的二重誘導画像プロンプトシステムを導入し,適応参照フレームを利用して塗装プロセスのガイドを行う。
これにより、ビデオフレーム間の微細な詳細と滑らかな遷移の両方をキャプチャし、塗装方向を正確に制御し、難易度の高い動的環境における復元精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-11-27T20:43:35Z) - Modeling Ambient Scene Dynamics for Free-view Synthesis [31.233859111566613]
モノクルキャプチャから周囲のシーンを動的に自由視点で合成する手法を提案する。
本手法は, 複雑な静的シーンを忠実に再構築できる3次元ガウス散乱(3DGS)の最近の進歩に基づいている。
論文 参考訳(メタデータ) (2024-06-13T17:59:11Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Editable Free-viewpoint Video Using a Layered Neural Representation [35.44420164057911]
我々は,スパース16カメラのみを用いた大規模ダイナミックシーンの編集可能な自由視点映像生成のための最初のアプローチを提案する。
私たちのアプローチの核心は、環境そのものを含む各動的エンティティがST-NeRFと呼ばれる時空コヒーレントな神経層放射線表現に定式化される新しい階層化された神経表現です。
実験は,ダイナミックシーンにおける高品質,フォトリアリスティック,編集可能な自由視点映像生成を実現するための手法の有効性を示す。
論文 参考訳(メタデータ) (2021-04-30T06:50:45Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。