論文の概要: Multi-Shot Character Consistency for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2412.07750v1
- Date: Tue, 10 Dec 2024 18:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:36:47.878476
- Title: Multi-Shot Character Consistency for Text-to-Video Generation
- Title(参考訳): テキスト・ビデオ・ジェネレーションのためのマルチショットキャラクタの一貫性
- Authors: Yuval Atzmon, Rinon Gal, Yoad Tewel, Yoni Kasten, Gal Chechik,
- Abstract要約: 本稿では,事前訓練されたテキスト・ツー・ビデオ・モデルを用いて,一貫したキャラクタによる複数ショットの生成を可能にするトレーニング不要なビデオストーリーボードを提案する。
私たちのキーとなる洞察は、自己注意クエリ機能(Q)が動きとアイデンティティの両方をエンコードしていることです。
我々は、アイデンティティ保存と自然運動保持のバランスをとる新しいクエリインジェクション戦略を導入する。
- 参考スコア(独自算出の注目度): 47.61288672890036
- License:
- Abstract: Text-to-video models have made significant strides in generating short video clips from textual descriptions. Yet, a significant challenge remains: generating several video shots of the same characters, preserving their identity without hurting video quality, dynamics, and responsiveness to text prompts. We present Video Storyboarding, a training-free method to enable pretrained text-to-video models to generate multiple shots with consistent characters, by sharing features between them. Our key insight is that self-attention query features (Q) encode both motion and identity. This creates a hard-to-avoid trade-off between preserving character identity and making videos dynamic, when features are shared. To address this issue, we introduce a novel query injection strategy that balances identity preservation and natural motion retention. This approach improves upon naive consistency techniques applied to videos, which often struggle to maintain this delicate equilibrium. Our experiments demonstrate significant improvements in character consistency across scenes while maintaining high-quality motion and text alignment. These results offer insights into critical stages of video generation and the interplay of structure and motion in video diffusion models.
- Abstract(参考訳): テキストとビデオのモデルは、テキスト記述から短いビデオクリップを生成するために大きな進歩を遂げた。
しかし、重要な課題は、同じ文字のいくつかのビデオショットを生成し、ビデオの品質、ダイナミックス、テキストプロンプトに対する応答性を損なうことなく、そのアイデンティティを保存することだ。
本稿では,事前訓練されたテキスト・ツー・ビデオ・モデルを用いて,一貫したキャラクタによる複数ショットの生成を可能にする,トレーニング不要なビデオストーリーボードを提案する。
私たちのキーとなる洞察は、自己注意クエリ機能(Q)が動きとアイデンティティの両方をエンコードしていることです。
これにより、キャラクタのアイデンティティを保存することと、機能が共有されたときに動画を動的にすることとの間には、避けられないトレードオフが生じます。
この問題に対処するために、アイデンティティの保存と自然な動きの保持のバランスをとる新しいクエリインジェクション戦略を導入する。
このアプローチは、この繊細な平衡を維持するのに苦慮するビデオに適用される単純で一貫性のあるテクニックを改善する。
本実験は,高品質な動きとテキストアライメントを維持しつつ,シーン間の文字の整合性を大幅に向上することを示した。
これらの結果は,映像拡散モデルにおける映像生成の重要な段階と構造と動きの相互作用に関する洞察を与える。
関連論文リスト
- One-Shot Learning Meets Depth Diffusion in Multi-Object Videos [0.0]
本稿では,一対のテキスト・ビデオから一対のコヒーレント・多様な映像を生成可能な,新しい深度条件付き手法を提案する。
提案手法は,従来設計した空間的・時間的注意機構を用いて,事前学習したモデルを用いて連続的な動きを捉える。
推論中、ビデオ生成のための構造的ガイダンスを提供するためにDDIMインバージョンを使用する。
論文 参考訳(メタデータ) (2024-08-29T16:58:10Z) - Anchored Diffusion for Video Face Reenactment [17.343307538702238]
比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。
我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。
推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
論文 参考訳(メタデータ) (2024-07-21T13:14:17Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - VideoDreamer: Customized Multi-Subject Text-to-Video Generation with
Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。
ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文 参考訳(メタデータ) (2023-11-02T04:38:50Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z) - Text2Performer: Text-Driven Human Video Generation [97.3849869893433]
テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。
そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
論文 参考訳(メタデータ) (2023-04-17T17:59:02Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。