論文の概要: ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation
- arxiv url: http://arxiv.org/abs/2603.11421v1
- Date: Thu, 12 Mar 2026 01:27:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.803809
- Title: ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation
- Title(参考訳): ShotVerse: テキスト駆動マルチショットビデオ作成のためのシネマカメラ制御の改善
- Authors: Songlin Yang, Zhe Wang, Xuyi Yang, Songchun Zhang, Xianghao Kong, Taiyi Wu, Xiaotong Zhao, Ran Zhang, Alan Zhao, Anyi Rao,
- Abstract要約: ShotVerseは、生成を2つの協調エージェントに分離する"Plan-then-Control"フレームワークである。
我々は、不整合単発軌跡を統一されたグローバル座標系に整合させる自動マルチショットカメラキャリブレーションパイプラインを設計する。
ShotVerseは、信頼性の低いテキスト制御と労働集約的な手作業プロットのギャップを効果的に埋めることを示した。
- 参考スコア(独自算出の注目度): 33.41430446859291
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-driven video generation has democratized film creation, but camera control in cinematic multi-shot scenarios remains a significant block. Implicit textual prompts lack precision, while explicit trajectory conditioning imposes prohibitive manual overhead and often triggers execution failures in current models. To overcome this bottleneck, we propose a data-centric paradigm shift, positing that aligned (Caption, Trajectory, Video) triplets form an inherent joint distribution that can connect automated plotting and precise execution. Guided by this insight, we present ShotVerse, a "Plan-then-Control" framework that decouples generation into two collaborative agents: a VLM (Vision-Language Model)-based Planner that leverages spatial priors to obtain cinematic, globally aligned trajectories from text, and a Controller that renders these trajectories into multi-shot video content via a camera adapter. Central to our approach is the construction of a data foundation: we design an automated multi-shot camera calibration pipeline aligns disjoint single-shot trajectories into a unified global coordinate system. This facilitates the curation of ShotVerse-Bench, a high-fidelity cinematic dataset with a three-track evaluation protocol that serves as the bedrock for our framework. Extensive experiments demonstrate that ShotVerse effectively bridges the gap between unreliable textual control and labor-intensive manual plotting, achieving superior cinematic aesthetics and generating multi-shot videos that are both camera-accurate and cross-shot consistent.
- Abstract(参考訳): テキスト駆動のビデオ生成は映画制作を民主化してきたが、撮影シーンにおけるカメラ制御は依然として重要なブロックである。
暗黙のテキストプロンプトは正確さを欠くが、明示的な軌道条件付けは手動のオーバーヘッドを禁止し、しばしば現在のモデルで実行障害を引き起こす。
このボトルネックを克服するため、我々はデータ中心のパラダイムシフトを提案し、アライメントされた(Caption, Trajectory, Video)三重項が、自動プロットと正確な実行を接続できる固有の結合分布を形成することを示唆する。
この知見に導かれたShotVerseは、生成を2つの協調エージェントに分離する"Plan-then-Control"フレームワークである。VLM(Vision-Language Model)ベースのPlannerは、空間的事前を利用して、テキストから映画的、グローバルに整列した軌道を得る。
自動マルチショットカメラキャリブレーションパイプラインを設計し、分離された単一ショット軌跡を統一されたグローバル座標系に整列させる。
これにより、フレームワークの基盤となる3トラック評価プロトコルを備えた高忠実な映画データセットであるShotVerse-Benchのキュレーションが容易になる。
ShotVerseは、信頼性の低いテキストコントロールと労働集約的な手作業プロットのギャップを効果的に埋め、優れた映画美学を達成し、カメラ精度とクロスショット一貫性のあるマルチショットビデオを生成することを実証している。
関連論文リスト
- Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative [55.05324155854762]
本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
論文 参考訳(メタデータ) (2025-12-13T15:57:29Z) - CineLOG: A Training Free Approach for Cinematic Long Video Generation [19.97092710696699]
5000の高品質なバランスの取れたビデオクリップのデータセットであるCineLOGを紹介した。
各エントリには、標準的な映画分類に基づく詳細なシーン記述、明示的なカメラ指示が注釈付けされている。
より成熟した技術で、複雑なテキストからジャンルビデオ(T2V)タスク生成を4つのより簡単なステージに分割し、このデータセットを作成するように設計された新しいパイプラインを提示する。
論文 参考訳(メタデータ) (2025-12-13T06:44:09Z) - ShotDirector: Directorially Controllable Multi-Shot Video Generation with Cinematographic Transitions [46.3918771233715]
ShotDirectorは、パラメータレベルのカメラ制御と階層的な編集パターン認識プロンプトを統合する効率的なフレームワークである。
本フレームワークは,パラメータレベルの条件と高レベルの意味指導を効果的に組み合わせ,フィルムのような制御可能なショット遷移を実現する。
論文 参考訳(メタデータ) (2025-12-11T05:05:07Z) - GimbalDiffusion: Gravity-Aware Camera Control for Video Generation [30.697985626973665]
本稿では,重力をグローバルな基準として,物理世界座標に接地したカメラ制御を実現するフレームワークを提案する。
我々はパノラマ360度ビデオを利用して、従来のビデオデータに見られる直線的で前方向きの軌跡をはるかに超えて、様々なカメラ軌跡を構築する。
本研究では、広帯域カメラピッチ変動下での総合評価のために、SpatialVID-HQを再バランスさせることにより、カメラ対応ビデオ生成のためのベンチマークを確立する。
論文 参考訳(メタデータ) (2025-12-09T20:54:35Z) - MultiShotMaster: A Controllable Multi-Shot Video Generation Framework [67.38203939500157]
現在の生成技術はシングルショットクリップで優れているが、物語的なマルチショットビデオを作成するのに苦労している。
高度に制御可能なマルチショットビデオ生成のためのフレームワークであるMultiShotMasterを提案する。
論文 参考訳(メタデータ) (2025-12-02T18:59:48Z) - CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models [28.224969852134606]
我々は,コヒーレントなマルチショットビデオを生成するためのフレームワークであるCineTransを紹介した。
CineTransは、フィルム編集スタイルに固執しながら、不安定な遷移やナイーブな結合を避けながら、シネマティックなマルチショットシーケンスを生成する。
論文 参考訳(メタデータ) (2025-08-15T13:58:22Z) - CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation [76.72787726497343]
CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
論文 参考訳(メタデータ) (2025-02-12T18:55:36Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。