論文の概要: UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video
Diffusion Models via Training-Free Unified Attention Control
- arxiv url: http://arxiv.org/abs/2403.02332v3
- Date: Wed, 6 Mar 2024 10:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 11:47:52.893585
- Title: UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video
Diffusion Models via Training-Free Unified Attention Control
- Title(参考訳): UniCtrl: 学習自由統一注意制御によるテキスト・ビデオ拡散モデルの時空間整合性の改善
- Authors: Xuweiyi Chen, Tian Xia, and Sihan Xu
- Abstract要約: テキスト・ツー・ビデオモデルによって生成されたビデオの一貫性と多様性を、追加のトレーニングなしで向上するプラグイン・アンド・プレイ方式であるUniCtrlを紹介する。
本研究は、UniCtrlが様々なテキスト・ビデオ・モデルの強化に有効であることを示し、その有効性を確認した。
- 参考スコア(独自算出の注目度): 5.3577715662768295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Diffusion Models have been developed for video generation, usually
integrating text and image conditioning to enhance control over the generated
content. Despite the progress, ensuring consistency across frames remains a
challenge, particularly when using text prompts as control conditions. To
address this problem, we introduce UniCtrl, a novel, plug-and-play method that
is universally applicable to improve the spatiotemporal consistency and motion
diversity of videos generated by text-to-video models without additional
training. UniCtrl ensures semantic consistency across different frames through
cross-frame self-attention control, and meanwhile, enhances the motion quality
and spatiotemporal consistency through motion injection and spatiotemporal
synchronization. Our experimental results demonstrate UniCtrl's efficacy in
enhancing various text-to-video models, confirming its effectiveness and
universality.
- Abstract(参考訳): ビデオ拡散モデルはビデオ生成のために開発されており、通常はテキストと画像条件を統合して生成されたコンテンツの制御を強化する。
進歩にもかかわらず、特にテキストプロンプトを制御条件として使用する場合、フレーム間の一貫性の確保は依然として課題である。
そこで本研究では,テキスト対ビデオモデルによる映像の時空間的一貫性と動きの多様性を改善するために,新たなプラグ・アンド・プレイ方式であるunictrlを提案する。
UniCtrlは、フレーム間の自己アテンション制御を通じて、異なるフレーム間のセマンティック一貫性を保証すると同時に、モーションインジェクションと時空間同期によって、運動品質と時空間一貫性を高める。
実験の結果、UniCtrlは様々なテキスト・ビデオ・モデルを強化し、その有効性と普遍性を確認した。
関連論文リスト
- WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text
and Image Inputs [53.21307319844615]
本稿では、Soraにインスパイアされたマルチモーダル学習の力を活用して、熟練した世界モデルフレームワークを構築する革新的なビデオ生成AIエージェントを提案する。
このフレームワークには、プロンプトエンハンサーとフルビデオ翻訳という2つの部分が含まれている。
論文 参考訳(メタデータ) (2024-03-10T16:09:02Z) - Text2AC-Zero: Consistent Synthesis of Animated Characters using 2D
Diffusion [52.196540278796476]
本稿では,事前学習されたテキスト・トゥ・イメージ(T2I)拡散モデルに基づく一貫したテキスト・トゥ・アニメーション・文字合成のためのゼロショット手法を提案する。
我々は、既存のテキストベースの動き拡散モデルを利用して、T2Iモデルを誘導する多様な動きを生成する。
提案手法は,時間的に一貫した動画を多種多様な動きやスタイルで生成し,画素単位の一貫性とユーザの好みで既存のゼロショットT2Vアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [35.803869952494686]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。
ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。
提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-11T17:46:28Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Control-A-Video: Controllable Text-to-Video Generation with Diffusion
Models [52.512109160994655]
本稿では,制御可能なテキスト・ツー・ビデオ(T2V)拡散モデルであるコントロール・ア・ビデオについて述べる。
オブジェクトの一貫性を改善するために、Control-A-Videoは動画生成にモーション・プレッションとコンテント・プレッションを統合する。
本モデルでは, 資源効率の収束を実現し, きめ細かい制御で一貫したコヒーレントな映像を生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。