論文の概要: DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation
- arxiv url: http://arxiv.org/abs/2512.21252v2
- Date: Thu, 25 Dec 2025 15:24:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.842508
- Title: DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation
- Title(参考訳): DreaMontage: 任意フレームによるワンショットビデオ生成
- Authors: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu,
- Abstract要約: DreaMontageは任意のフレーム誘導生成用に設計された包括的なフレームワークである。
多様なユーザが提供するインプットから、シームレスで表現力豊かで長期にわたるワンショットビデオを合成することができる。
- 参考スコア(独自算出の注目度): 29.691765692687756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.
- Abstract(参考訳): ワンショット」技法は、映画製作において際立った、洗練された美学を表現している。
しかし、その実践的実現は、しばしば禁止コストと複雑な現実世界の制約によって妨げられる。
新たなビデオ生成モデルは仮想的な代替手段を提供するが、既存のアプローチは通常、視覚的滑らかさと時間的コヒーレンスを維持するのに失敗するナイーブなクリップ結合に依存している。
本稿では,任意のフレーム誘導生成のために設計された包括的フレームワークであるDreaMontageについて紹介する。
これを実現するために,3つの主要な次元を通じて課題に対処する。
i) 軽量な中間条件機構をDiTアーキテクチャに統合する。
ベーストレーニングデータを効果的に活用するAdaptive Tuning戦略を利用することで、ロバストな任意のフレーム制御機能をアンロックします。
(II)視覚的忠実度と映像的表現性を高めるため,高品質なデータセットをキュレートし,ビジュアル表現SFTステージを実装した。
主観的動きの合理性や遷移のスムーズさといった重要な問題に対処する上で,生成したコンテンツの成功率とユーザビリティを大幅に向上させるTalored DPOスキームを適用した。
3)拡張シーケンスの生成を容易にするため,メモリ効率のよいセグメンツワイド自動回帰(SAR)推論戦略を設計する。
広汎な実験により、計算効率を保ちながら視覚的に印象的かつシームレスなワンショット効果を実現し、断片化された視覚素材を鮮明で密集したワンショット映像体験に変換することができる。
関連論文リスト
- STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。
提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。
動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文 参考訳(メタデータ) (2025-12-03T15:51:11Z) - Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。
既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。
自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文 参考訳(メタデータ) (2025-07-29T14:31:17Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - Interactive Face Video Coding: A Generative Compression Framework [21.834370453322375]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現/重み付けアニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。