論文の概要: BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way
- arxiv url: http://arxiv.org/abs/2410.06241v2
- Date: Wed, 16 Oct 2024 11:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 10:21:03.861658
- Title: BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way
- Title(参考訳): BroadWay: テキストからビデオへの生成モデルをトレーニング不要の方法で強化する
- Authors: Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang,
- Abstract要約: そこで,BroadWayを提案する。BroadWayは,追加パラメータやメモリ増設,サンプリング時間を追加することなく,テキスト・ビデオ・ジェネレーションの品質を向上するためのトレーニング不要な手法である。
具体的には、BroadWayは2つの主要コンポーネントから構成される: 1) 時間的自己誘導は、様々なデコーダブロック間の時間的注意マップ間の格差を減らし、生成されたビデオの構造的妥当性と時間的一貫性を改善する。
- 参考スコア(独自算出の注目度): 72.1984861448374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The text-to-video (T2V) generation models, offering convenient visual creation, have recently garnered increasing attention. Despite their substantial potential, the generated videos may present artifacts, including structural implausibility, temporal inconsistency, and a lack of motion, often resulting in near-static video. In this work, we have identified a correlation between the disparity of temporal attention maps across different blocks and the occurrence of temporal inconsistencies. Additionally, we have observed that the energy contained within the temporal attention maps is directly related to the magnitude of motion amplitude in the generated videos. Based on these observations, we present BroadWay, a training-free method to improve the quality of text-to-video generation without introducing additional parameters, augmenting memory or sampling time. Specifically, BroadWay is composed of two principal components: 1) Temporal Self-Guidance improves the structural plausibility and temporal consistency of generated videos by reducing the disparity between the temporal attention maps across various decoder blocks. 2) Fourier-based Motion Enhancement enhances the magnitude and richness of motion by amplifying the energy of the map. Extensive experiments demonstrate that BroadWay significantly improves the quality of text-to-video generation with negligible additional cost.
- Abstract(参考訳): 便利なビジュアル生成を提供するテキスト・ツー・ビデオ(T2V)生成モデルは近年注目を集めている。
その大きな可能性にもかかわらず、生成されたビデオは、構造的不確実性、時間的不整合、動きの欠如など、アーティファクトを提示する可能性がある。
本研究では,異なるブロックにまたがる時間的注意マップの不一致と時間的不整合の発生との相関関係を同定した。
さらに、時間的注意マップに含まれるエネルギーは、生成されたビデオの運動振幅の大きさと直接関係していることがわかった。
これらの観測結果に基づいてBroadWayを提案する。BroadWayは、追加のパラメータやメモリ増設、サンプリング時間を導入することなく、テキスト・ビデオ生成の品質を向上するためのトレーニング不要な手法である。
具体的には、BroadWayは2つの主要コンポーネントで構成されています。
1) 時間的自己指導は, 様々なデコーダブロック間の時間的注意マップ間の差異を低減し, 生成ビデオの構造的妥当性と時間的一貫性を向上させる。
2) フーリエに基づく運動強調は, 地図のエネルギーを増幅することにより, 運動の大きさと豊かさを高める。
大規模な実験により、BroadWayはテキスト・ビデオ・ジェネレーションの質を大幅に改善し、追加コストは無視できることがわかった。
関連論文リスト
- Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。
提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文 参考訳(メタデータ) (2024-03-20T10:58:58Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。