論文の概要: MultiShotMaster: A Controllable Multi-Shot Video Generation Framework
- arxiv url: http://arxiv.org/abs/2512.03041v1
- Date: Tue, 02 Dec 2025 18:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:46.023481
- Title: MultiShotMaster: A Controllable Multi-Shot Video Generation Framework
- Title(参考訳): MultiShotMaster: 制御可能なマルチショットビデオ生成フレームワーク
- Authors: Qinghe Wang, Xiaoyu Shi, Baolu Li, Weikang Bian, Quande Liu, Huchuan Lu, Xintao Wang, Pengfei Wan, Kun Gai, Xu Jia,
- Abstract要約: 現在の生成技術はシングルショットクリップで優れているが、物語的なマルチショットビデオを作成するのに苦労している。
高度に制御可能なマルチショットビデオ生成のためのフレームワークであるMultiShotMasterを提案する。
- 参考スコア(独自算出の注目度): 67.38203939500157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video generation techniques excel at single-shot clips but struggle to produce narrative multi-shot videos, which require flexible shot arrangement, coherent narrative, and controllability beyond text prompts. To tackle these challenges, we propose MultiShotMaster, a framework for highly controllable multi-shot video generation. We extend a pretrained single-shot model by integrating two novel variants of RoPE. First, we introduce Multi-Shot Narrative RoPE, which applies explicit phase shift at shot transitions, enabling flexible shot arrangement while preserving the temporal narrative order. Second, we design Spatiotemporal Position-Aware RoPE to incorporate reference tokens and grounding signals, enabling spatiotemporal-grounded reference injection. In addition, to overcome data scarcity, we establish an automated data annotation pipeline to extract multi-shot videos, captions, cross-shot grounding signals and reference images. Our framework leverages the intrinsic architectural properties to support multi-shot video generation, featuring text-driven inter-shot consistency, customized subject with motion control, and background-driven customized scene. Both shot count and duration are flexibly configurable. Extensive experiments demonstrate the superior performance and outstanding controllability of our framework.
- Abstract(参考訳): 現在のビデオ生成技術は、単発クリップでは優れているが、フレキシブルショットアレンジメント、コヒーレントな物語、テキストプロンプトを超えた制御性を必要とする、物語的なマルチショットビデオを作成するのに苦労している。
これらの課題に対処するために,高度に制御可能なマルチショットビデオ生成のためのフレームワークであるMultiShotMasterを提案する。
我々は,RoPEの2つの新しい変種を統合することにより,事前訓練された単発モデルを拡張した。
まず、ショット遷移における明示的な位相シフトを適用し、時間的物語順序を保ちながらフレキシブルなショットアレンジメントを可能にするマルチショットナラティブRoPEを提案する。
第2に、時空間位置対応RoPEを設計し、基準トークンと接地信号を取り込んで、時空間的基準注入を可能にする。
さらに、データの不足を克服するために、マルチショットビデオ、キャプション、クロスショットグラウンド信号、参照イメージを抽出する自動データアノテーションパイプラインを構築した。
本フレームワークは,マルチショットビデオ生成をサポートするために,本質的なアーキテクチャ特性を活用し,テキスト駆動によるショット間一貫性,モーションコントロールによるカスタマイズ,背景駆動によるカスタマイズシーンを特徴とする。
ショットカウントと持続時間は、柔軟に設定可能である。
大規模な実験は、我々のフレームワークの優れた性能と優れた制御性を示します。
関連論文リスト
- EchoShot: Multi-Shot Portrait Video Generation [37.77879735014084]
EchoShotは、基礎的なビデオ拡散モデルに基づいて構築されたポートレートカスタマイズのためのネイティブなマルチショットフレームワークである。
マルチショットシナリオにおけるモデルトレーニングを容易にするため,大規模かつ高忠実な人間中心のビデオデータセットであるPortraitGalaを構築した。
適用性をさらに向上するため、EchoShotを拡張して、参照画像に基づくパーソナライズされたマルチショット生成と、無限ショットカウントによる長いビデオ合成を行う。
論文 参考訳(メタデータ) (2025-06-16T11:00:16Z) - ShotAdapter: Text-to-Multi-Shot Video Generation with Diffusion Models [37.70850513700251]
現在の拡散ベースのテキスト・ツー・ビデオ法は、単一のショットの短いビデオクリップを生成するに限られている。
本稿では,テキスト・ツー・マルチショットビデオ生成を実現するために,データセット収集パイプラインとビデオ拡散モデルのアーキテクチャ拡張を含むフレームワークを提案する。
提案手法により,全フレームにまたがるマルチショット映像を単一のビデオとして生成することが可能となる。
論文 参考訳(メタデータ) (2025-05-12T15:22:28Z) - Long Context Tuning for Video Generation [63.060794860098795]
Long Context Tuning (LCT) は、訓練済みのシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張する訓練パラダイムである。
本手法は、シーン内のすべてのショットを包含するために、個々のショットからフルアテンションメカニズムを拡張する。
実験では、コヒーレントなマルチショットシーンを実証し、合成生成やインタラクティブショット拡張など、新たな能力を示す。
論文 参考訳(メタデータ) (2025-03-13T17:40:07Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。