論文の概要: VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention
- arxiv url: http://arxiv.org/abs/2503.15138v2
- Date: Thu, 20 Mar 2025 13:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 12:14:51.429429
- Title: VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention
- Title(参考訳): VideoGen-of-Thought:手作業による最小限の介入で、ステップバイステップでマルチショットビデオを生成する
- Authors: Mingzhe Zheng, Yongqi Xu, Haojian Huang, Xuran Ma, Yexin Liu, Wenjie Shu, Yatian Pang, Feilong Tang, Qifeng Chen, Harry Yang, Ser-Nam Lim,
- Abstract要約: 現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
- 参考スコア(独自算出の注目度): 70.61101071902596
- License:
- Abstract: Current video generation models excel at short clips but fail to produce cohesive multi-shot narratives due to disjointed visual dynamics and fractured storylines. Existing solutions either rely on extensive manual scripting/editing or prioritize single-shot fidelity over cross-scene continuity, limiting their practicality for movie-like content. We introduce VideoGen-of-Thought (VGoT), a step-by-step framework that automates multi-shot video synthesis from a single sentence by systematically addressing three core challenges: (1) Narrative Fragmentation: Existing methods lack structured storytelling. We propose dynamic storyline modeling, which first converts the user prompt into concise shot descriptions, then elaborates them into detailed, cinematic specifications across five domains (character dynamics, background continuity, relationship evolution, camera movements, HDR lighting), ensuring logical narrative progression with self-validation. (2) Visual Inconsistency: Existing approaches struggle with maintaining visual consistency across shots. Our identity-aware cross-shot propagation generates identity-preserving portrait (IPP) tokens that maintain character fidelity while allowing trait variations (expressions, aging) dictated by the storyline. (3) Transition Artifacts: Abrupt shot changes disrupt immersion. Our adjacent latent transition mechanisms implement boundary-aware reset strategies that process adjacent shots' features at transition points, enabling seamless visual flow while preserving narrative continuity. VGoT generates multi-shot videos that outperform state-of-the-art baselines by 20.4% in within-shot face consistency and 17.4% in style consistency, while achieving over 100% better cross-shot consistency and 10x fewer manual adjustments than alternatives.
- Abstract(参考訳): 現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
既存のソリューションは、広範な手動のスクリプティング/編集に依存するか、ワンショットの忠実度をシーン間の連続性よりも優先し、映画のようなコンテンツに対する実用性を制限している。
本稿では,(1)ナラティブ・フラグメンテーション:既存の手法では構造化されたストーリーテリングが欠如している,という3つの課題に体系的に対処することで,単一の文からマルチショットビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought(VGoT)を紹介する。
本稿では,まずユーザプロンプトを簡潔なショット記述に変換するダイナミックなストーリーラインモデリングを提案し,それを5つの領域(キャラクタダイナミクス,背景連続性,関係進化,カメラ運動,HDR照明)にわたる詳細な映画仕様に詳細化し,自己検証による論理的物語の進行を保証する。
2) 視覚的不整合性: 既存のアプローチはショット間の視覚的一貫性を維持するのに苦労する。
我々のアイデンティティを意識したクロスショット伝播は、ストーリーラインによって特徴変動(表現、老化)を許容しつつ、文字の忠実性を維持するアイデンティティ保存ポートレート(IPP)トークンを生成する。
(3) 遷移アーティファクト: 突然のショット変更は浸漬を阻害する。
隣接している潜伏遷移機構は、隣接ショットの特徴を遷移点で処理し、物語の連続性を保ちながらシームレスな視覚的フローを可能にする境界対応リセット戦略を実装している。
VGoTは、最先端のベースラインを20.4%上回り、スタイルの一貫性を17.4%上回るマルチショットビデオを生成する。
関連論文リスト
- SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。
SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文 参考訳(メタデータ) (2025-02-15T16:08:40Z) - Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation [47.61288672890036]
本研究では,テキスト・ビデオ・モデルにおける自己注意クエリ機能がどのように動作,構造,アイデンティティを制御するかを検討する。
分析の結果,Qがレイアウトに影響を及ぼすだけでなく,Qをデノナイズする際にも主観的同一性に強い影響を及ぼすことが明らかとなった。
本研究では,(1)既存の手法より20倍効率の良いゼロショットモーショントランスファー法,(2)一貫したマルチショットビデオ生成のためのトレーニングフリー手法の2つの応用例を示す。
論文 参考訳(メタデータ) (2024-12-10T18:49:39Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z) - MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。
様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文 参考訳(メタデータ) (2024-07-23T17:17:05Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。