論文の概要: Enhance-A-Video: Better Generated Video for Free
- arxiv url: http://arxiv.org/abs/2502.07508v1
- Date: Tue, 11 Feb 2025 12:22:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:34.426669
- Title: Enhance-A-Video: Better Generated Video for Free
- Title(参考訳): Enhance-A-Video: 無償で生成したビデオ
- Authors: Yang Luo, Xuanlei Zhao, Mengzhao Chen, Kaipeng Zhang, Wenqi Shao, Kai Wang, Zhangyang Wang, Yang You,
- Abstract要約: 本稿では,DiTをベースとしたビデオのコヒーレンスと品質を高めるためのトレーニング不要な手法を提案する。
我々のアプローチは、リトレーニングや微調整なしに、ほとんどのDiTベースのビデオ生成フレームワークに容易に適用できる。
- 参考スコア(独自算出の注目度): 57.620595159855064
- License:
- Abstract: DiT-based video generation has achieved remarkable results, but research into enhancing existing models remains relatively unexplored. In this work, we introduce a training-free approach to enhance the coherence and quality of DiT-based generated videos, named Enhance-A-Video. The core idea is enhancing the cross-frame correlations based on non-diagonal temporal attention distributions. Thanks to its simple design, our approach can be easily applied to most DiT-based video generation frameworks without any retraining or fine-tuning. Across various DiT-based video generation models, our approach demonstrates promising improvements in both temporal consistency and visual quality. We hope this research can inspire future explorations in video generation enhancement.
- Abstract(参考訳): DiTをベースとしたビデオ生成は目覚ましい成果を上げているが、既存のモデルの改良の研究はいまだに未検討である。
本研究では,DiTをベースとしたビデオのコヒーレンスと品質を高めるためのトレーニング不要な手法であるEnhance-A-Videoを提案する。
中心となる考え方は、非対角的時間的注意分布に基づくクロスフレーム相関を強化することである。
そのシンプルな設計のおかげで、我々のアプローチは、リトレーニングや微調整なしに、ほとんどのDiTベースのビデオ生成フレームワークに容易に適用できます。
様々なDiTベースのビデオ生成モデルにおいて,時間的一貫性と視覚的品質の両面で有望な改善が示されている。
この研究が将来のビデオ生成の強化に刺激を与えてくれることを願っている。
関連論文リスト
- Improving Video Generation with Human Feedback [81.48120703718774]
ビデオ生成は大きな進歩を遂げているが、動画とプロンプト間の不規則な動きや不一致といった問題が続いている。
我々は、人間のフィードバックを利用してこれらの問題を緩和し、ビデオ生成モデルを洗練する体系的なパイプラインを開発する。
多次元ビデオ報酬モデルであるVideoRewardを導入し、アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - The Dawn of Video Generation: Preliminary Explorations with SORA-like Models [14.528428430884015]
テキスト・トゥ・ビデオ(T2V)、画像・トゥ・ビデオ(I2V)、ビデオ・トゥ・ビデオ(V2V)生成を含む高品質なビデオ生成は、コンテンツ作成においてかなりの重要性を持っている。
SORAのようなモデルでは、高解像度、より自然な動き、より良い視覚言語アライメント、コントロール可能性の向上といった高度なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-10-07T17:35:10Z) - PEEKABOO: Interactive Video Generation via Masked-Diffusion [16.27046318032809]
モジュールベースのビデオ生成モデルにビデオ制御を組み込むための第1のソリューションを提案する。
Peekabooは、既存のビデオ生成モデルとシームレスに統合され、追加のトレーニングや推論オーバーヘッドを必要とせずに、コントロールを提供する。
我々の広範囲な質的および定量的評価により、PeekabooはmIoUのベースラインモデルよりも最大3.8倍改善していることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T18:43:05Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。