Fugu-MT 論文翻訳(概要): UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control

論文の概要: UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control

arxiv url: http://arxiv.org/abs/2403.02332v3
Date: Wed, 6 Mar 2024 10:46:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-07 11:47:52.893585
Title: UniCtrl: Improving the Spatiotemporal Consistency of Text-to-Video Diffusion Models via Training-Free Unified Attention Control
Title（参考訳）: UniCtrl: 学習自由統一注意制御によるテキスト・ビデオ拡散モデルの時空間整合性の改善
Authors: Xuweiyi Chen, Tian Xia, and Sihan Xu
Abstract要約: テキスト・ツー・ビデオモデルによって生成されたビデオの一貫性と多様性を、追加のトレーニングなしで向上するプラグイン・アンド・プレイ方式であるUniCtrlを紹介する。本研究は、UniCtrlが様々なテキスト・ビデオ・モデルの強化に有効であることを示し、その有効性を確認した。
参考スコア（独自算出の注目度）: 5.3577715662768295
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video Diffusion Models have been developed for video generation, usually integrating text and image conditioning to enhance control over the generated content. Despite the progress, ensuring consistency across frames remains a challenge, particularly when using text prompts as control conditions. To address this problem, we introduce UniCtrl, a novel, plug-and-play method that is universally applicable to improve the spatiotemporal consistency and motion diversity of videos generated by text-to-video models without additional training. UniCtrl ensures semantic consistency across different frames through cross-frame self-attention control, and meanwhile, enhances the motion quality and spatiotemporal consistency through motion injection and spatiotemporal synchronization. Our experimental results demonstrate UniCtrl's efficacy in enhancing various text-to-video models, confirming its effectiveness and universality.
Abstract（参考訳）: ビデオ拡散モデルはビデオ生成のために開発されており、通常はテキストと画像条件を統合して生成されたコンテンツの制御を強化する。進歩にもかかわらず、特にテキストプロンプトを制御条件として使用する場合、フレーム間の一貫性の確保は依然として課題である。そこで本研究では,テキスト対ビデオモデルによる映像の時空間的一貫性と動きの多様性を改善するために,新たなプラグ・アンド・プレイ方式であるunictrlを提案する。 UniCtrlは、フレーム間の自己アテンション制御を通じて、異なるフレーム間のセマンティック一貫性を保証すると同時に、モーションインジェクションと時空間同期によって、運動品質と時空間一貫性を高める。実験の結果、UniCtrlは様々なテキスト・ビデオ・モデルを強化し、その有効性と普遍性を確認した。

関連論文リスト

Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文参考訳（メタデータ） (2025-12-03T15:51:11Z)
Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文参考訳（メタデータ） (2025-01-13T18:53:08Z)
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [47.88160253507823]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。 CTGMは、TII(Temporal Information)、TAR(Temporal Affinity Refiner)、TFB(Temporal Feature Booster)をクロスアテンションの開始、中、末に組み込んでいる。
論文参考訳（メタデータ） (2024-08-15T14:47:44Z)
FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation [85.29772293776395]
フレーム間対応とフレーム間対応のFRESCOを導入し,より堅牢な時空間制約を確立する。この拡張により、フレーム間で意味的に類似したコンテンツのより一貫性のある変換が可能になる。提案手法では,入力ビデオと高空間時間整合性を実現するために,特徴の明示的な更新を行う。
論文参考訳（メタデータ） (2024-03-19T17:59:18Z)
Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文参考訳（メタデータ） (2023-12-11T18:54:52Z)
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。 ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文参考訳（メタデータ） (2023-10-11T17:46:28Z)
Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文参考訳（メタデータ） (2023-09-25T19:42:16Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)
ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。 NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文参考訳（メタデータ） (2023-05-22T14:48:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。