論文の概要: ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions
- arxiv url: http://arxiv.org/abs/2512.10286v1
- Date: Thu, 11 Dec 2025 05:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.196106
- Title: ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions
- Title(参考訳): ショットディレクタ:シネマトグラフィー遷移によるディレクトリ制御可能なマルチショット映像生成
- Authors: Xiaoxue Wu, Xinyuan Chen, Yaohui Wang, Yu Qiao,
- Abstract要約: ShotDirectorは、パラメータレベルのカメラ制御と階層的な編集パターン認識プロンプトを統合する効率的なフレームワークである。
本フレームワークは,パラメータレベルの条件と高レベルの意味指導を効果的に組み合わせ,フィルムのような制御可能なショット遷移を実現する。
- 参考スコア(独自算出の注目度): 46.3918771233715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Shot transitions play a pivotal role in multi-shot video generation, as they determine the overall narrative expression and the directorial design of visual storytelling. However, recent progress has primarily focused on low-level visual consistency across shots, neglecting how transitions are designed and how cinematographic language contributes to coherent narrative expression. This often leads to mere sequential shot changes without intentional film-editing patterns. To address this limitation, we propose ShotDirector, an efficient framework that integrates parameter-level camera control and hierarchical editing-pattern-aware prompting. Specifically, we adopt a camera control module that incorporates 6-DoF poses and intrinsic settings to enable precise camera information injection. In addition, a shot-aware mask mechanism is employed to introduce hierarchical prompts aware of professional editing patterns, allowing fine-grained control over shot content. Through this design, our framework effectively combines parameter-level conditions with high-level semantic guidance, achieving film-like controllable shot transitions. To facilitate training and evaluation, we construct ShotWeaver40K, a dataset that captures the priors of film-like editing patterns, and develop a set of evaluation metrics for controllable multi-shot video generation. Extensive experiments demonstrate the effectiveness of our framework.
- Abstract(参考訳): ショットトランジションは、物語の全体表現とビジュアルストーリーテリングのディレクトリデザインを決定するため、マルチショットビデオ生成において重要な役割を果たす。
しかし、最近の進歩は主にショット間の低レベルの視覚的整合性に注目しており、トランジションがどのように設計され、撮影言語がコヒーレントな物語表現にどのように貢献するかを無視している。
これはしばしば、意図的なフィルム編集パターンなしで連続的な撮影変更をもたらす。
この制限に対処するために、パラメータレベルのカメラ制御と階層的な編集パターン認識プロンプトを統合した効率的なフレームワークShotDirectorを提案する。
具体的には、6-DoFポーズと固有の設定を組み込んだカメラ制御モジュールを採用して、正確なカメラ情報注入を実現する。
さらに、プロの編集パターンを認識した階層的なプロンプトを導入するために、ショット対応マスク機構を採用し、ショット内容のきめ細かい制御を可能にする。
この設計を通じて,本フレームワークは,パラメータレベルの条件と高レベルの意味指導を効果的に組み合わせ,フィルムのような制御可能なショット遷移を実現する。
トレーニングと評価を容易にするために、フィルムライクな編集パターンの先行情報をキャプチャするデータセットShotWeaver40Kを構築し、制御可能なマルチショットビデオ生成のための評価指標のセットを開発する。
大規模な実験により、我々のフレームワークの有効性が実証された。
関連論文リスト
- MultiShotMaster: A Controllable Multi-Shot Video Generation Framework [67.38203939500157]
現在の生成技術はシングルショットクリップで優れているが、物語的なマルチショットビデオを作成するのに苦労している。
高度に制御可能なマルチショットビデオ生成のためのフレームワークであるMultiShotMasterを提案する。
論文 参考訳(メタデータ) (2025-12-02T18:59:48Z) - Generative Photographic Control for Scene-Consistent Video Cinematic Editing [75.45726688666083]
CineCtrlはプロのカメラパラメータを細かく制御する最初の映像編集フレームワークである。
本稿では、カメラの動きを写真入力から切り離すための分離されたクロスアテンション機構を提案する。
本モデルでは,ユーザの指定した写真カメラ効果を正確に制御した高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2025-11-17T03:17:23Z) - ESA: Energy-Based Shot Assembly Optimization for Automatic Video Editing [12.967240894970098]
ショットアセンブリは、映画制作とビデオ編集において重要なステップである。
伝統的に、このプロセスは経験豊富な編集者によって手動で実行される。
本稿では,映像合成のためのエネルギーベース最適化手法を提案する。
論文 参考訳(メタデータ) (2025-11-04T11:48:22Z) - CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models [28.224969852134606]
我々は,コヒーレントなマルチショットビデオを生成するためのフレームワークであるCineTransを紹介した。
CineTransは、フィルム編集スタイルに固執しながら、不安定な遷移やナイーブな結合を避けながら、シネマティックなマルチショットシーケンスを生成する。
論文 参考訳(メタデータ) (2025-08-15T13:58:22Z) - GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography [98.28272367169465]
本稿では,写真監督の専門知識にインスパイアされた自己回帰モデルを導入し,芸術的かつ表現的なカメラトラジェクトリを生成する。
包括的で多様なデータベースのおかげで、高品質でコンテキスト対応のカメラムーブメント生成のための自動回帰デコーダのみのトランスフォーマーをトレーニングします。
実験により、既存の手法と比較して、GenDoPはより良い制御性、よりきめ細かい軌道調整、より高い運動安定性を提供することが示された。
論文 参考訳(メタデータ) (2025-04-09T17:56:01Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Automatic Camera Trajectory Control with Enhanced Immersion for Virtual Cinematography [23.070207691087827]
実世界のシネマトグラフィーのルールは、監督がカメラをアクターと包括的に同期させることで没入感を生み出すことができることを示している。
この戦略に触発されて,アクターとカメラの3面の同期を可能にするディープカメラ制御フレームワークを提案する。
提案手法は,高品質な没入型撮影映像を定量的かつ質的に生成する。
論文 参考訳(メタデータ) (2023-03-29T22:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。