論文の概要: ContentV: Efficient Training of Video Generation Models with Limited Compute
- arxiv url: http://arxiv.org/abs/2506.05343v2
- Date: Wed, 11 Jun 2025 15:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.009046
- Title: ContentV: Efficient Training of Video Generation Models with Limited Compute
- Title(参考訳): ContentV:リミテッドコンピュータを用いた映像生成モデルの効率的な学習
- Authors: Wenfeng Lin, Renjie Chen, Boyuan Liu, Shiyue Yan, Ruoyu Feng, Jiangchuan Wei, Yichen Zhang, Yimeng Zhou, Chao Feng, Jiao Ran, Qi Wu, Zuotao Liu, Mingyu Guo,
- Abstract要約: ContentVはテキスト・ツー・ビデオのモデルであり、テキスト・プロンプトから複数の解像度と期間にわたる多様な高品質のビデオを生成する。
256 x 64GBのニューラルプロセッシングユニット(NPU)を4週間訓練した後、最先端のパフォーマンス(VBenchでは85.14)を達成した。
- 参考スコア(独自算出の注目度): 16.722018026516867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation demand increasingly efficient training recipes to mitigate escalating computational costs. In this report, we present ContentV, an 8B-parameter text-to-video model that achieves state-of-the-art performance (85.14 on VBench) after training on 256 x 64GB Neural Processing Units (NPUs) for merely four weeks. ContentV generates diverse, high-quality videos across multiple resolutions and durations from text prompts, enabled by three key innovations: (1) A minimalist architecture that maximizes reuse of pre-trained image generation models for video generation; (2) A systematic multi-stage training strategy leveraging flow matching for enhanced efficiency; and (3) A cost-effective reinforcement learning with human feedback framework that improves generation quality without requiring additional human annotations. All the code and models are available at: https://contentv.github.io.
- Abstract(参考訳): 近年のビデオ生成の進歩は、計算コストの増大を緩和するために、より効率的なトレーニングレシピを必要としている。
本稿では,256 x 64GBのニューラルプロセッシングユニット(NPU)を4週間訓練した後,最先端の性能(VBenchで85.14)を実現する8Bパラメーターテキスト・ビデオモデルであるContentVを提案する。
コンテントVは, テキストプロンプトから多種多様な高画質映像を生成し, 1) ビデオ生成のための事前学習画像生成モデルの再利用を最大化する最小限のアーキテクチャ, (2) 効率向上のためにフローマッチングを活用した体系的多段階学習, (3) 人間のアノテーションを必要とせずに生成品質を向上させる費用対効果強化学習, の3つの重要な革新によって実現された。
すべてのコードとモデルは以下の通りである。
関連論文リスト
- AMD-Hummingbird: Towards an Efficient Text-to-Video Model [12.09360569154206]
テキスト・トゥ・ビデオ(T2V)生成は、テキスト記述からリアルな映像を合成する能力において大きな注目を集めている。
以前の作業のほとんどは、現実のデプロイメントに適した、より小さく、より効率的なモデルの必要性を見越しながら、視覚的忠実さを優先している。
本稿では,Hummingbirdと呼ばれる軽量なT2Vフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T11:13:33Z) - Pretrained Image-Text Models are Secretly Video Captioners [38.66202065611397]
画像ベースモデルにより、複数の特殊映像キャプションシステムよりも優れた性能が得られることが判明した。
適応モデルでは,MSRVTTとMSVDでは2位,VATEXでは3位であった。
資源最適化の観点から、このビデオキャプション研究は、モデルスケールの最適化、データ効率の最大化、強化学習の導入の3つの基本的な要素に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-19T01:53:03Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - Movie Gen: A Cast of Media Foundation Models [133.41504332082667]
高品質の1080pHDビデオを生成する基礎モデルのキャストであるMovie Genについて紹介する。
ユーザの画像に基づいて,高精度な命令ベースのビデオ編集やパーソナライズされたビデオの生成などの追加機能を示す。
論文 参考訳(メタデータ) (2024-10-17T16:22:46Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。