Fugu-MT 論文翻訳(概要): T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

論文の概要: T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design

arxiv url: http://arxiv.org/abs/2410.05677v2
Date: Fri, 11 Oct 2024 07:47:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 17:09:37.146701
Title: T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design
Title（参考訳）: T2V-Turbo-v2:データ・リワード・条件付き誘導設計によるビデオ生成後モデルの強化
Authors: Jiachen Li, Qian Long, Jian Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen, William Yang Wang,
Abstract要約: 提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。特定の学習目標に対するデータセットの調整の重要性を強調した。トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
参考スコア（独自算出の注目度）: 79.7289790249621
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we focus on enhancing a diffusion-based text-to-video (T2V) model during the post-training phase by distilling a highly capable consistency model from a pretrained T2V model. Our proposed method, T2V-Turbo-v2, introduces a significant advancement by integrating various supervision signals, including high-quality training data, reward model feedback, and conditional guidance, into the consistency distillation process. Through comprehensive ablation studies, we highlight the crucial importance of tailoring datasets to specific learning objectives and the effectiveness of learning from diverse reward models for enhancing both the visual quality and text-video alignment. Additionally, we highlight the vast design space of conditional guidance strategies, which centers on designing an effective energy function to augment the teacher ODE solver. We demonstrate the potential of this approach by extracting motion guidance from the training datasets and incorporating it into the ODE solver, showcasing its effectiveness in improving the motion quality of the generated videos with the improved motion-related metrics from VBench and T2V-CompBench. Empirically, our T2V-Turbo-v2 establishes a new state-of-the-art result on VBench, with a Total score of 85.13, surpassing proprietary systems such as Gen-3 and Kling.
Abstract（参考訳）: 本稿では,事前学習したT2Vモデルから高機能な一貫性モデルを蒸留することにより,後学習段階における拡散型テキスト・ツー・ビデオ(T2V)モデルの改善に焦点をあてる。提案手法であるT2V-Turbo-v2は, 高品質なトレーニングデータ, 報酬モデルフィードバック, 条件付きガイダンスなど, 各種監視信号の整合蒸留プロセスへの統合により, 大幅な高度化を実現する。包括的アブレーション研究を通じて、特定の学習目標に対するデータセットの調整の重要性と、視覚的品質とテキスト・ビデオのアライメントを向上させるための多様な報酬モデルからの学習の有効性を強調した。さらに,教師のODEソルバを増強する効果的なエネルギー関数の設計に焦点を当てた,条件付き指導戦略の広大な設計空間を強調した。トレーニングデータセットからモーションガイダンスを抽出し、ODEソルバに組み込むことで、VBenchとT2V-CompBenchのモーション関連指標の改善により、生成されたビデオのモーション品質を改善する効果を示す。実証的に、我々のT2V-Turbo-v2は、Gen-3やKlingといったプロプライエタリシステムを上回る85.13のスコアで、VBenchに新たな最先端結果を確立する。

関連論文リスト

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis [14.980220974022982]
本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介し,視覚的忠実度と動きの滑らかさを両立させる。提案手法は,低品質ビデオフレームを改良するために,よく訓練された拡散ベースT2Iモデルを用いる。また、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
論文参考訳（メタデータ） (2025-07-18T08:59:02Z)
EAM: Enhancing Anything with Diffusion Transformers for Blind Super-Resolution [11.331361804059625]
Enhancing Anything Model (EAM)はBlind Super-Resolution法である。画像復元を効果的に誘導する新しいブロックである$Psi$-DiTを導入する。 EAMは、複数のデータセットにまたがる最先端の結果を達成し、定量的メトリクスと視覚的品質の両方において、既存の手法よりも優れています。
論文参考訳（メタデータ） (2025-05-08T13:03:07Z)
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T21:53:11Z)
ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文参考訳（メタデータ） (2024-12-25T18:58:07Z)
ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文参考訳（メタデータ） (2024-10-27T16:28:28Z)
VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide [48.22321420680046]
VideoGuideは、事前訓練されたテキスト・ツー・ビデオ(T2V)モデルの時間的一貫性を高める新しいフレームワークである。ガイドモデルの復調標本をサンプリングモデルの復調過程に補間することにより、時間的品質を向上させる。提案手法は時間的一貫性と画像の忠実度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T05:46:17Z)
Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文参考訳（メタデータ） (2024-07-01T08:51:22Z)
ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。 ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。 ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文参考訳（メタデータ） (2023-11-27T18:52:09Z)
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文参考訳（メタデータ） (2023-09-26T17:52:03Z)
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions [31.4943447481144]
本稿では,共同学習と言語学習(VL)について検討し,モダリティ間の学習を可能とし,多くの下流作業に役立てる。本モデルでは,10の理解タスクと2の新たなテキスト・ビジュアル生成タスクを実現する。
論文参考訳（メタデータ） (2021-11-19T17:36:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。