論文の概要: Multi-Shot Character Consistency for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2412.07750v1
- Date: Tue, 10 Dec 2024 18:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:47.878476
- Title: Multi-Shot Character Consistency for Text-to-Video Generation
- Title(参考訳): テキスト・ビデオ・ジェネレーションのためのマルチショットキャラクタの一貫性
- Authors: Yuval Atzmon, Rinon Gal, Yoad Tewel, Yoni Kasten, Gal Chechik,
- Abstract要約: 本稿では,事前訓練されたテキスト・ツー・ビデオ・モデルを用いて,一貫したキャラクタによる複数ショットの生成を可能にするトレーニング不要なビデオストーリーボードを提案する。
私たちのキーとなる洞察は、自己注意クエリ機能(Q)が動きとアイデンティティの両方をエンコードしていることです。
我々は、アイデンティティ保存と自然運動保持のバランスをとる新しいクエリインジェクション戦略を導入する。
- 参考スコア(独自算出の注目度): 47.61288672890036
- License:
- Abstract: Text-to-video models have made significant strides in generating short video clips from textual descriptions. Yet, a significant challenge remains: generating several video shots of the same characters, preserving their identity without hurting video quality, dynamics, and responsiveness to text prompts. We present Video Storyboarding, a training-free method to enable pretrained text-to-video models to generate multiple shots with consistent characters, by sharing features between them. Our key insight is that self-attention query features (Q) encode both motion and identity. This creates a hard-to-avoid trade-off between preserving character identity and making videos dynamic, when features are shared. To address this issue, we introduce a novel query injection strategy that balances identity preservation and natural motion retention. This approach improves upon naive consistency techniques applied to videos, which often struggle to maintain this delicate equilibrium. Our experiments demonstrate significant improvements in character consistency across scenes while maintaining high-quality motion and text alignment. These results offer insights into critical stages of video generation and the interplay of structure and motion in video diffusion models.
- Abstract(参考訳): テキストとビデオのモデルは、テキスト記述から短いビデオクリップを生成するために大きな進歩を遂げた。
しかし、重要な課題は、同じ文字のいくつかのビデオショットを生成し、ビデオの品質、ダイナミックス、テキストプロンプトに対する応答性を損なうことなく、そのアイデンティティを保存することだ。
本稿では,事前訓練されたテキスト・ツー・ビデオ・モデルを用いて,一貫したキャラクタによる複数ショットの生成を可能にする,トレーニング不要なビデオストーリーボードを提案する。
私たちのキーとなる洞察は、自己注意クエリ機能(Q)が動きとアイデンティティの両方をエンコードしていることです。
これにより、キャラクタのアイデンティティを保存することと、機能が共有されたときに動画を動的にすることとの間には、避けられないトレードオフが生じます。
この問題に対処するために、アイデンティティの保存と自然な動きの保持のバランスをとる新しいクエリインジェクション戦略を導入する。
このアプローチは、この繊細な平衡を維持するのに苦慮するビデオに適用される単純で一貫性のあるテクニックを改善する。
本実験は,高品質な動きとテキストアライメントを維持しつつ,シーン間の文字の整合性を大幅に向上することを示した。
これらの結果は,映像拡散モデルにおける映像生成の重要な段階と構造と動きの相互作用に関する洞察を与える。
関連論文リスト
- SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers [30.06494915665044]
ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。
SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
論文 参考訳(メタデータ) (2025-02-15T16:08:40Z) - VAST 1.0: A Unified Framework for Controllable and Consistent Video Generation [48.318567065609216]
VAST(Video As Storyboard from Text)は、テキスト記述から高品質なビデオを生成するためのフレームワークである。
映像生成からテキスト理解を分離することにより、VASTは主題のダイナミクスやシーン構成を正確に制御できる。
VBenchベンチマークの実験では、VASTは視覚的品質とセマンティック表現の両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-12-21T15:59:07Z) - VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation [70.61101071902596]
現在の世代モデルは短いクリップを生成するのに優れていますが、マルチショット映画のようなビデオを作るのに苦戦しています。
マルチショットビデオ生成に特化して設計された協調学習不要なアーキテクチャであるVideoGen-of-Thought (VGoT)を提案する。
我々の実験は、VGoTが高品質でコヒーレントなマルチショットビデオを作成する際に、既存のビデオ生成方法を上回ることを実証している。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。
提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。
推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文 参考訳(メタデータ) (2024-08-29T16:58:10Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。