論文の概要: Goku: Flow Based Video Generative Foundation Models
- arxiv url: http://arxiv.org/abs/2502.04896v2
- Date: Mon, 10 Feb 2025 13:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:23.483001
- Title: Goku: Flow Based Video Generative Foundation Models
- Title(参考訳): Goku: フローベースのビデオ生成ファウンデーションモデル
- Authors: Shoufa Chen, Chongjian Ge, Yuqi Zhang, Yida Zhang, Fengda Zhu, Hao Yang, Hongxiang Hao, Hui Wu, Zhichao Lai, Yifei Hu, Ting-Che Lin, Shilong Zhang, Fu Li, Chuan Li, Xing Wang, Yanghua Peng, Peize Sun, Ping Luo, Yi Jiang, Zehuan Yuan, Bingyue Peng, Xiaobing Liu,
- Abstract要約: 直流変圧器を応用した画像・映像の共同生成モデルの最先端のファミリーは、業界をリードする性能を達成する。
データキュレーションパイプライン、モデルアーキテクチャ設計、フローの定式化、効率的で堅牢な大規模トレーニングのための高度なインフラなど、高品質なビジュアル生成を可能にする基本的な要素について詳述する。
- 参考スコア(独自算出の注目度): 70.36800688219053
- License:
- Abstract: This paper introduces Goku, a state-of-the-art family of joint image-and-video generation models leveraging rectified flow Transformers to achieve industry-leading performance. We detail the foundational elements enabling high-quality visual generation, including the data curation pipeline, model architecture design, flow formulation, and advanced infrastructure for efficient and robust large-scale training. The Goku models demonstrate superior performance in both qualitative and quantitative evaluations, setting new benchmarks across major tasks. Specifically, Goku achieves 0.76 on GenEval and 83.65 on DPG-Bench for text-to-image generation, and 84.85 on VBench for text-to-video tasks. We believe that this work provides valuable insights and practical advancements for the research community in developing joint image-and-video generation models.
- Abstract(参考訳): 本稿では,直流変圧器を応用し,業界をリードする性能を実現する共同画像・映像生成モデルであるGokuを紹介する。
データキュレーションパイプライン、モデルアーキテクチャ設計、フローの定式化、効率的で堅牢な大規模トレーニングのための高度なインフラなど、高品質なビジュアル生成を可能にする基本的な要素について詳述する。
Gokuモデルは定性評価と定量的評価の両方において優れた性能を示し、主要なタスクにまたがる新しいベンチマークを設定している。
具体的には、GokuはGenEvalで0.76、DPG-Benchで83.65、VBenchで84.85である。
本研究は,共同画像・映像生成モデルの開発において,研究コミュニティに貴重な洞察と実践的進歩をもたらすものと信じている。
関連論文リスト
- IDEA-Bench: How Far are Generative Models from Professional Designing? [34.00716542613326]
実世界の100のタスクを含むベンチマークであるIDEA-Benchを紹介する。
これには、レンダリング、ビジュアルエフェクト、ストーリーボード、絵本、フォント、スタイルベース、アイデンティティ保存生成が含まれる。
最高のパフォーマンスモデルでさえ、IDEA-Benchで22.48しか達成せず、最高の汎用モデルは6.81しか達成していない。
論文 参考訳(メタデータ) (2024-12-16T13:39:32Z) - STIV: Scalable Text and Image Conditioned Video Generation [84.2574247093223]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文 参考訳(メタデータ) (2024-12-10T18:27:06Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Improved Visual Story Generation with Adaptive Context Modeling [39.04249009170821]
本稿では,適応型コンテキストモデリングによる先行システムを改善するための簡易な手法を提案する。
我々は, PororoSV と FlintstonesSV のデータセットを用いたモデルの評価を行い,本手法が物語の可視化と継続シナリオの両面において最先端の FID スコアを達成することを示す。
論文 参考訳(メタデータ) (2023-05-26T10:43:42Z) - Latent Video Transformer [30.0340468756089]
いくつかのビデオ生成モデルは、並列トレーニングのために最大512の処理ユニットを必要とする。
本研究では,潜在空間の力学をモデル化することでこの問題に対処する。
本稿では,BAIR Robot Pushing Kinetics-600データセットの性能について述べる。
論文 参考訳(メタデータ) (2020-06-18T17:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。