論文の概要: Lights, Camera, Consistency: A Multistage Pipeline for Character-Stable AI Video Stories
- arxiv url: http://arxiv.org/abs/2512.16954v1
- Date: Wed, 17 Dec 2025 18:10:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.119482
- Title: Lights, Camera, Consistency: A Multistage Pipeline for Character-Stable AI Video Stories
- Title(参考訳): 光、カメラ、一貫性:キャラクタ安定型AIビデオのための多段階パイプライン
- Authors: Chayan Jain, Rishant Sharma, Archit Garg, Ishan Bhanuka, Pratik Narang, Dhruv Kumar,
- Abstract要約: 映画製作者のような方法で映像生成にアプローチする手法を提案する。
1ステップでビデオを作成する代わりに、提案したパイプラインは、まず大きな言語モデルを使用して、詳細なプロダクションスクリプトを生成する。
このスクリプトは、各キャラクタに対して一貫したヴィジュアライゼーションを作成するためのテキスト・ツー・イメージモデルをガイドし、各シーンを個別に合成するビデオ生成モデルのアンカーとして機能する。
- 参考スコア(独自算出の注目度): 5.022547031373416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating long, cohesive video stories with consistent characters is a significant challenge for current text-to-video AI. We introduce a method that approaches video generation in a filmmaker-like manner. Instead of creating a video in one step, our proposed pipeline first uses a large language model to generate a detailed production script. This script guides a text-to-image model in creating consistent visuals for each character, which then serve as anchors for a video generation model to synthesize each scene individually. Our baseline comparisons validate the necessity of this multi-stage decomposition; specifically, we observe that removing the visual anchoring mechanism results in a catastrophic drop in character consistency scores (from 7.99 to 0.55), confirming that visual priors are essential for identity preservation. Furthermore, we analyze cultural disparities in current models, revealing distinct biases in subject consistency and dynamic degree between Indian vs Western-themed generations.
- Abstract(参考訳): 長い結束したビデオストーリーを一貫したキャラクターで生成することは、現在のテキスト対ビデオAIにとって重要な課題である。
映画製作者のような方法で映像生成にアプローチする手法を提案する。
1ステップでビデオを作成する代わりに、提案したパイプラインは、まず大きな言語モデルを使用して、詳細なプロダクションスクリプトを生成する。
このスクリプトは、各キャラクタに対して一貫したヴィジュアライゼーションを作成するためのテキスト・ツー・イメージモデルをガイドし、各シーンを個別に合成するビデオ生成モデルのアンカーとして機能する。
特に,視覚的アンカー機構の除去が文字整合性スコア(7.99から0.55まで)の破滅的な低下をもたらすことを観察し,視覚的先行性がアイデンティティの保存に不可欠であることを確認した。
さらに、現在のモデルにおける文化的格差を分析し、対象の一貫性とインドと西洋をテーマとした世代間の動的度合いの差を明らかにした。
関連論文リスト
- VideoAuteur: Towards Long Narrative Video Generation [22.915448471769384]
本稿では,調理領域における長めの物語生成を促進するために,大規模な調理ビデオデータセットを提案する。
生成ビデオにおける視覚的・意味的コヒーレンスを高めるために,Long Narrative Video Directorを導入する。
本手法は,視覚的細部および意味的整合性の生成における大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-10T18:52:11Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。