論文の概要: A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality
- arxiv url: http://arxiv.org/abs/2507.07202v1
- Date: Wed, 09 Jul 2025 18:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.170736
- Title: A Survey on Long-Video Storytelling Generation: Architectures, Consistency, and Cinematic Quality
- Title(参考訳): 長編ストーリーテリング生成に関する調査 : 建築, 一貫性, 映像品質
- Authors: Mohamed Elmoghany, Ryan Rossi, Seunghyun Yoon, Subhojyoti Mukherjee, Eslam Bakr, Puneet Mathur, Gang Wu, Viet Dac Lai, Nedim Lipka, Ruiyi Zhang, Varun Manjunatha, Chien Nguyen, Daksh Dangi, Abel Salinas, Mohammad Taesiri, Hongjie Chen, Xiaolei Huang, Joe Barrow, Nesreen Ahmed, Hoda Eldardiry, Namyong Park, Yu Wang, Jaemin Cho, Anh Totti Nguyen, Zhengzhong Tu, Thien Nguyen, Dinesh Manocha, Mohamed Elhoseiny, Franck Dernoncourt,
- Abstract要約: ビデオ生成モデルは5~16秒間のビデオしか生成できないが、しばしば「ロングフォームビデオ」とラベル付けされる。
16秒を超えるビデオは、物語全体を通して一貫したキャラクターの外観とシーンレイアウトを維持するのに苦労する。
近年の研究では、複数のキャラクター、物語のコヒーレンス、高忠実度の詳細を特徴とする長編ビデオの制作が試みられている。
- 参考スコア(独自算出の注目度): 108.88534641637196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the significant progress that has been made in video generative models, existing state-of-the-art methods can only produce videos lasting 5-16 seconds, often labeled "long-form videos". Furthermore, videos exceeding 16 seconds struggle to maintain consistent character appearances and scene layouts throughout the narrative. In particular, multi-subject long videos still fail to preserve character consistency and motion coherence. While some methods can generate videos up to 150 seconds long, they often suffer from frame redundancy and low temporal diversity. Recent work has attempted to produce long-form videos featuring multiple characters, narrative coherence, and high-fidelity detail. We comprehensively studied 32 papers on video generation to identify key architectural components and training strategies that consistently yield these qualities. We also construct a comprehensive novel taxonomy of existing methods and present comparative tables that categorize papers by their architectural designs and performance characteristics.
- Abstract(参考訳): ビデオ生成モデルでは大きな進歩があったが、既存の最先端の手法では5~16秒間しかビデオを生成できないため、しばしば「ロングフォームビデオ」とラベル付けされる。
さらに、16秒を超えるビデオは、物語全体を通して一貫したキャラクターの出現とシーンレイアウトを維持するのに苦労する。
特に、マルチオブジェクトの長いビデオは、キャラクタの一貫性とモーションコヒーレンスを保たない。
最大150秒間ビデオを生成する方法もあるが、フレームの冗長性と時間的多様性の低下に悩まされることが多い。
近年の研究では、複数のキャラクター、物語のコヒーレンス、高忠実度の詳細を特徴とする長編ビデオの制作が試みられている。
ビデオ生成に関する32の論文を包括的に研究し,これらの品質を継続的に獲得する重要なアーキテクチャ要素とトレーニング戦略を特定した。
また,既存手法の包括的新しい分類法を構築し,そのアーキテクチャ設計と性能特性から論文を分類する比較表を作成した。
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - Video Is Worth a Thousand Images: Exploring the Latest Trends in Long Video Generation [2.4240014793575138]
この記事の執筆時点では、現在最先端のシステムであるOpenAIのSoraは、最大1分間のビデオ制作に制限されている。
本稿では,GANや拡散モデル,ビデオ生成戦略,大規模トレーニングデータセット,長大映像の評価のための品質指標,および既存の映像生成能力の限界に対処するための今後の研究領域について,現在の長大映像生成の状況について検討する。
論文 参考訳(メタデータ) (2024-12-24T21:24:41Z) - MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - Long Video Generation with Time-Agnostic VQGAN and Time-Sensitive
Transformer [66.56167074658697]
本稿では3D-VQGANとトランスフォーマーを使って数千フレームのビデオを生成する手法を提案する。
評価の結果,16フレームのビデオクリップでトレーニングしたモデルでは,多種多様でコヒーレントで高品質な長編ビデオが生成できることがわかった。
また,テキストと音声に時間情報を組み込むことで,有意義な長ビデオを生成するための条件付き拡張についても紹介する。
論文 参考訳(メタデータ) (2022-04-07T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。