論文の概要: HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
- arxiv url: http://arxiv.org/abs/2510.20822v1
- Date: Thu, 23 Oct 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.551146
- Title: HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
- Title(参考訳): HoloCine:Cinetic Multi-Shot Long Video Narrativesの全体的生成
- Authors: Yihao Meng, Hao Ouyang, Yue Yu, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Hanlin Wang, Yixuan Li, Cheng Chen, Yanhong Zeng, Yujun Shen, Huamin Qu,
- Abstract要約: HoloCineは、最初のショットから最後のショットまでのグローバルな一貫性を確保するために、全体を生成するモデルです。
本アーキテクチャは,テキストプロンプトを特定のショットにローカライズするウィンドウクロスアテンション機構により,正確なディレクトリ制御を実現する。
我々の研究は、クリップ合成から自動映画化への重要な転換であり、エンド・ツー・エンドの映画制作を目に見える未来にしている。
- 参考スコア(独自算出の注目度): 97.61653035827919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art text-to-video models excel at generating isolated clips but fall short of creating the coherent, multi-shot narratives, which are the essence of storytelling. We bridge this "narrative gap" with HoloCine, a model that generates entire scenes holistically to ensure global consistency from the first shot to the last. Our architecture achieves precise directorial control through a Window Cross-Attention mechanism that localizes text prompts to specific shots, while a Sparse Inter-Shot Self-Attention pattern (dense within shots but sparse between them) ensures the efficiency required for minute-scale generation. Beyond setting a new state-of-the-art in narrative coherence, HoloCine develops remarkable emergent abilities: a persistent memory for characters and scenes, and an intuitive grasp of cinematic techniques. Our work marks a pivotal shift from clip synthesis towards automated filmmaking, making end-to-end cinematic creation a tangible future. Our code is available at: https://holo-cine.github.io/.
- Abstract(参考訳): 最先端のテキスト・トゥ・ビデオモデルは、孤立したクリップを生成するのに優れていますが、ストーリーテリングの本質である一貫性のあるマルチショットの物語を作るには足りません。
この“ナラティブギャップ”を,最初のショットから最後のショットまでのグローバルな一貫性を確保するために,全体を生成するモデルであるHoloCineで埋めています。
我々のアーキテクチャは、テキストプロンプトを特定のショットにローカライズするウィンドウクロスアテンション機構により、正確なディレクトリ制御を実現する一方、スパースショット間自己アテンションパターン(ショット内では距離はあるが、その間は疎い)は、マイクロスケール生成に必要な効率を保証する。
HoloCineは、物語のコヒーレンスにおいて新しい最先端の技術を設定できるだけでなく、キャラクターやシーンの永続的な記憶と、映画のテクニックの直感的な把握という、驚くべき創発的な能力も開発している。
我々の研究は、クリップ合成から自動映画化への重要な転換であり、エンド・ツー・エンドの映画制作を目に見える未来にしている。
私たちのコードは、https://holo-cine.github.io/.com/で公開されています。
関連論文リスト
- Captain Cinema: Towards Short Movie Generation [66.22442526026215]
我々は、短編映画生成のための世代フレームワークであるキャプテン・シネマを提示する。
我々のアプローチは、物語全体を概説する一連の合成を生成する。
我々のモデルは、インターリーブされたデータペアからなる特別にキュレートされたデータセットで訓練されている。
論文 参考訳(メタデータ) (2025-07-24T17:59:56Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。