論文の概要: DrawVideo: Generating Long Video from Storyboard Keyframe Sketches
- arxiv url: http://arxiv.org/abs/2605.23508v1
- Date: Fri, 22 May 2026 11:16:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.326938
- Title: DrawVideo: Generating Long Video from Storyboard Keyframe Sketches
- Title(参考訳): DrawVideo: ストーリーボードのキーボードから長いビデオを生成する
- Authors: Chuanzhi Xu, Huiqi Liang, Bang Shi, Huiming Zhang, Yifan Xiao, Guangcheng Lin, Haodong Chen, Qiang Qu, Zhicheng Lu, Weidong Cai,
- Abstract要約: DrawVideoはスケッチ誘導型、ストーリーボード駆動で、コントロール可能な長ビデオ生成のためのフレームワークだ。
長いビデオを独立して制御可能なショットに分解し、それぞれが白黒のスケッチ、外観プロンプト、モーションプロンプトで定義される。
実験では、DrawVideoは強力な構造制御性、外観整合性、視覚安定性、コヒーレントな長ビデオ生成を実現している。
- 参考スコア(独自算出の注目度): 14.777037981233079
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Long video generation requires high-fidelity synthesis, coherent narrative structure, and user control over extended time spans. Existing text-to-video methods often rely on a single long prompt, limiting control over pose, composition, layout, and motion. We propose DrawVideo, a sketch-guided, storyboard-driven framework for controllable long-video generation. DrawVideo decomposes long videos into independently controllable shots, each defined by a black-and-white sketch, an appearance prompt, and a motion prompt. The sketch controls pose and layout, the appearance prompt defines identity, scene, and style, and the motion prompt guides temporal dynamics. DrawVideo follows a hierarchical 'global multi-shot, local single-sketch' strategy: it first generates a structure-aligned reference keyframe, then expands the motion prompt into derivative keyframes representing action states, and finally synthesizes clips between adjacent keyframes to build each shot. We also introduce SketchLongVideo, the first dataset for sketch-guided text-to-long-video generation, constructed from animation videos via shot detection, keyframe extraction, vision-language recognition, prompt decomposition, and sketch conversion. Experiments show that DrawVideo achieves strong structural controllability, appearance consistency, visual stability, and coherent long-video generation.
- Abstract(参考訳): ロングビデオ生成には、高忠実性合成、コヒーレントな物語構造、長期にわたるユーザコントロールが必要である。
既存のテキスト・トゥ・ビデオの手法は、ポーズ、構成、レイアウト、動きの制御を制限する単一の長いプロンプトに依存していることが多い。
そこで我々は,DrawVideoを提案する。DrawVideoはスケッチ誘導型,ストーリーボード駆動型で,制御可能な長ビデオ生成のためのフレームワークである。
DrawVideoは、長いビデオを独立してコントロール可能なショットに分解し、それぞれを白黒のスケッチ、外観プロンプト、モーションプロンプトで定義する。
スケッチはポーズとレイアウトを制御し、外観プロンプトはアイデンティティ、シーン、スタイルを定義し、動きプロンプトは時間的ダイナミクスを導く。
DrawVideoは階層的な「グローバルなマルチショット、ローカルなシングルスケッチ」戦略に従い、まず構造に沿って参照キーフレームを生成し、次にアクション状態を表す派生キーフレームにモーションプロンプトを拡大し、最後に隣接するキーフレーム間のクリップを合成して各ショットを構築する。
また,画像検出,キーフレーム抽出,視覚言語認識,即時分解,スケッチ変換によるアニメーションビデオから構築した,スケッチガイド付きテキスト・ビデオ生成のための最初のデータセットであるSketchLongVideoも紹介した。
実験の結果,DrawVideoは強い構造制御性,外観整合性,視覚的安定性,コヒーレントな長ビデオ生成を実現することがわかった。
関連論文リスト
- SketchVideo: Sketch-based Video Generation and Editing [51.99066098393491]
本研究では,映像生成のためのスケッチベースの空間・動き制御の実現と,実・合成ビデオのきめ細かい編集を支援することを目的とする。
DiTビデオ生成モデルに基づいて、スキップされたDiTブロックの残像を予測するスケッチ制御ブロックを用いたメモリ効率の高い制御構造を提案する。
スケッチベースのビデオ編集では,新たに編集したコンテンツとオリジナルビデオの空間的特徴と動的動作との整合性を維持するビデオ挿入モジュールを設計する。
論文 参考訳(メタデータ) (2025-03-30T02:44:09Z) - VAST 1.0: A Unified Framework for Controllable and Consistent Video Generation [48.318567065609216]
VAST(Video As Storyboard from Text)は、テキスト記述から高品質なビデオを生成するためのフレームワークである。
映像生成からテキスト理解を分離することにより、VASTは主題のダイナミクスやシーン構成を正確に制御できる。
VBenchベンチマークの実験では、VASTは視覚的品質とセマンティック表現の両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-21T15:59:07Z) - Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。
これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。
空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文 参考訳(メタデータ) (2024-01-23T18:05:25Z) - Sketch Video Synthesis [52.134906766625164]
フレームワイドB'ezier曲線で表現されたビデオのスケッチを行うための新しいフレームワークを提案する。
本手法は、スケッチベースのビデオ編集やビデオ合成によるビデオ再生における応用を解放する。
論文 参考訳(メタデータ) (2023-11-26T14:14:04Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。