論文の概要: STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative
- arxiv url: http://arxiv.org/abs/2512.12372v1
- Date: Sat, 13 Dec 2025 15:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.236121
- Title: STAGE: Storyboard-Anchored Generation for Cinematic Multi-shot Narrative
- Title(参考訳): STAGE:シネマティック・マルチショット・ナラティブのためのストーリーボード・アンコレッド・ジェネレーション
- Authors: Peixuan Zhang, Zijian Jia, Kaiqi Liu, Shuchen Weng, Si Li, Boxin Shi,
- Abstract要約: 本稿では,STAGEに基づく映像生成タスクを再構成するStoryboard-Anchored GEnerationワークフローを提案する。
そこで本研究では,スペーサーの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
ConStoryBoardの大規模データセットには、ストーリーの進行、映画的属性、人間の嗜好など、高品質な映像クリップが含まれています。
- 参考スコア(独自算出の注目度): 55.05324155854762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advancements in generative models have achieved remarkable visual fidelity in video synthesis, creating coherent multi-shot narratives remains a significant challenge. To address this, keyframe-based approaches have emerged as a promising alternative to computationally intensive end-to-end methods, offering the advantages of fine-grained control and greater efficiency. However, these methods often fail to maintain cross-shot consistency and capture cinematic language. In this paper, we introduce STAGE, a SToryboard-Anchored GEneration workflow to reformulate the keyframe-based multi-shot video generation task. Instead of using sparse keyframes, we propose STEP2 to predict a structural storyboard composed of start-end frame pairs for each shot. We introduce the multi-shot memory pack to ensure long-range entity consistency, the dual-encoding strategy for intra-shot coherence, and the two-stage training scheme to learn cinematic inter-shot transition. We also contribute the large-scale ConStoryBoard dataset, including high-quality movie clips with fine-grained annotations for story progression, cinematic attributes, and human preferences. Extensive experiments demonstrate that STAGE achieves superior performance in structured narrative control and cross-shot coherence.
- Abstract(参考訳): 生成モデルの最近の進歩は、ビデオ合成において顕著な視覚的忠実性を実現しているが、コヒーレントなマルチショット物語を作成することは大きな課題である。
これを解決するために、キーフレームベースのアプローチは計算集約的なエンドツーエンドメソッドに代わる有望な代替手段として登場し、きめ細かい制御と効率の向上の利点を提供する。
しかし、これらの手法はショット間の一貫性を維持し、撮影言語を捉えるのに失敗することが多い。
本稿では,STAGE(Storyboard-Anchored GEneration workflow)を紹介し,キーフレームに基づくマルチショットビデオ生成タスクを再構成する。
スパース・キーフレームの代わりに,各ショットの先頭フレーム対からなる構造的ストーリーボードを推定するSTEP2を提案する。
本稿では、長距離エンティティ一貫性を確保するためのマルチショットメモリパック、イントラショットコヒーレンスのためのデュアルエンコード戦略、撮影間遷移を学ぶための2段階のトレーニングスキームを紹介する。
ConStoryBoardの大規模データセットにもコントリビュートしており、ストーリーの進行、映画の属性、人間の好みなどの細かいアノテーションを付けた高品質な映画クリップも提供しています。
大規模な実験により、STAGEは構造化された物語制御とクロスショットコヒーレンスにおいて優れた性能を発揮することが示された。
関連論文リスト
- FilmWeaver: Weaving Consistent Multi-Shot Videos with Cache-Guided Autoregressive Diffusion [46.67733869872552]
textbfFilmWeaverは任意の長さで一貫したマルチショットビデオを生成するように設計されたフレームワークである。
私たちの重要な洞察は、問題をショット間の一貫性とショット内のコヒーレンスに分離することです。
本手法は, 整合性と美的品質の両面において, 既存の手法を超越した手法である。
論文 参考訳(メタデータ) (2025-12-12T04:34:53Z) - OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory [47.073128448877775]
我々は,一貫した,スケーラブルな物語生成のためのグローバルかつコンパクトなクロスショットコンテキストモデリングを実現するOneStoryを提案する。
OneStoryは、MSVを次のショット生成タスクとして再構成し、トレーニング済みのイメージ・ツー・ビデオ(I2V)モデルを活用しながら、自己回帰的なショット合成を可能にする。
OneStoryは、テキストと画像条件の両方の設定において、多種多様な複雑なシーンにまたがる最先端の物語コヒーレンスを実現する。
論文 参考訳(メタデータ) (2025-12-08T18:32:24Z) - MultiShotMaster: A Controllable Multi-Shot Video Generation Framework [67.38203939500157]
現在の生成技術はシングルショットクリップで優れているが、物語的なマルチショットビデオを作成するのに苦労している。
高度に制御可能なマルチショットビデオ生成のためのフレームワークであるMultiShotMasterを提案する。
論文 参考訳(メタデータ) (2025-12-02T18:59:48Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2025-03-19T11:59:14Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。