論文の概要: GigaVideo-1: Advancing Video Generation via Automatic Feedback with 4 GPU-Hours Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.10639v1
- Date: Thu, 12 Jun 2025 12:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.729238
- Title: GigaVideo-1: Advancing Video Generation via Automatic Feedback with 4 GPU-Hours Fine-Tuning
- Title(参考訳): GigaVideo-1:GPU-Hoursファインチューニングによる自動フィードバックによるビデオ生成の高速化
- Authors: Xiaoyi Bao, Jindi Lv, Xiaofeng Wang, Zheng Zhu, Xinze Chen, YuKun Zhou, Jiancheng Lv, Xingang Wang, Guan Huang,
- Abstract要約: GigaVideo-1は、人間の監督なしにビデオ生成を効率化する効率的な微調整フレームワークである。
我々は、微調整プロセスの2つの重要な側面、すなわちデータと最適化に焦点を当てている。
実験によると、GigaVideo-1は、ほぼすべての次元のパフォーマンスを継続的に改善し、平均的な増加率は4つのGPU時間で約4%である。
- 参考スコア(独自算出の注目度): 38.85475786611648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in diffusion models has greatly enhanced video generation quality, yet these models still require fine-tuning to improve specific dimensions like instance preservation, motion rationality, composition, and physical plausibility. Existing fine-tuning approaches often rely on human annotations and large-scale computational resources, limiting their practicality. In this work, we propose GigaVideo-1, an efficient fine-tuning framework that advances video generation without additional human supervision. Rather than injecting large volumes of high-quality data from external sources, GigaVideo-1 unlocks the latent potential of pre-trained video diffusion models through automatic feedback. Specifically, we focus on two key aspects of the fine-tuning process: data and optimization. To improve fine-tuning data, we design a prompt-driven data engine that constructs diverse, weakness-oriented training samples. On the optimization side, we introduce a reward-guided training strategy, which adaptively weights samples using feedback from pre-trained vision-language models with a realism constraint. We evaluate GigaVideo-1 on the VBench-2.0 benchmark using Wan2.1 as the baseline across 17 evaluation dimensions. Experiments show that GigaVideo-1 consistently improves performance on almost all the dimensions with an average gain of about 4% using only 4 GPU-hours. Requiring no manual annotations and minimal real data, GigaVideo-1 demonstrates both effectiveness and efficiency. Code, model, and data will be publicly available.
- Abstract(参考訳): 拡散モデルの最近の進歩は、ビデオ生成の品質を大幅に向上させたが、これらのモデルは、インスタンス保存、運動合理性、構成、物理的妥当性などの特定の次元を改善するために、微調整が必要である。
既存の微調整アプローチはしばしば人間のアノテーションや大規模な計算資源に依存し、実用性を制限する。
本研究では,人間の監督を伴わずに映像生成を効率化するGigaVideo-1を提案する。
GigaVideo-1は、外部ソースから大量の高品質なデータを注入するのではなく、自動フィードバックによって事前訓練されたビデオ拡散モデルの潜在可能性を解放する。
具体的には、微調整プロセスの2つの重要な側面、すなわちデータと最適化に焦点を当てる。
微調整データを改善するために,多様な弱み指向のトレーニングサンプルを構築するプロンプト駆動型データエンジンを設計する。
最適化の面では、現実性制約のある事前学習された視覚言語モデルからのフィードバックを用いて、サンプルを適応的に重み付けする報酬誘導型トレーニング戦略を導入する。
We evaluate GigaVideo-1 on the VBench-2.0 benchmark using Wan2.1 as the baseline across the 17 evaluation dimensions。
実験によると、GigaVideo-1は、ほぼすべての次元のパフォーマンスを継続的に改善し、平均的な増加率は4つのGPU時間で約4%である。
手動のアノテーションや最小限の実際のデータを必要としないGigaVideo-1は、有効性と効率性を実証する。
コード、モデル、データは公開されます。
関連論文リスト
- Wan: Open and Advanced Large-Scale Video Generative Models [83.03603932233275]
Wanは、ビデオ生成の境界を推し進めるために設計された、ビデオファンデーションモデルのスイートである。
我々は、ソースコードやすべてのモデルを含む一連のWanをオープンソース化し、ビデオ生成コミュニティの成長を促進することを目的としています。
論文 参考訳(メタデータ) (2025-03-26T08:25:43Z) - SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding [70.84791600974337]
ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。
2ストリームのSlowFastメカニズムを合理化されたトレーニングパイプラインに組み込む。
我々は、公開データセットのみを慎重にキュレートしたデータ混合を用いて、共同でビデオイメージトレーニングを行う。
論文 参考訳(メタデータ) (2025-03-24T17:59:07Z) - AMD-Hummingbird: Towards an Efficient Text-to-Video Model [12.09360569154206]
テキスト・トゥ・ビデオ(T2V)生成は、テキスト記述からリアルな映像を合成する能力において大きな注目を集めている。
以前の作業のほとんどは、現実のデプロイメントに適した、より小さく、より効率的なモデルの必要性を見越しながら、視覚的忠実さを優先している。
本稿では,Hummingbirdと呼ばれる軽量なT2Vフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T11:13:33Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。
VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。
我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - OpenHumanVid: A Large-Scale High-Quality Dataset for Enhancing Human-Centric Video Generation [27.516068877910254]
大規模で高品質な人中心ビデオデータセットOpenHumanVidを紹介する。
まず、大規模で高品質なデータセットを組み込むことによって、生成された人間のビデオの評価基準を大幅に強化する。
第二に、高品質のビデオ出力を生成するためには、人間の外見、人間の動き、顔の動きとテキストの効果的なアライメントが不可欠である。
論文 参考訳(メタデータ) (2024-11-28T07:01:06Z) - VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models [111.5892290894904]
VBenchは、"ビデオ生成品質"を特定の、階層的、そして非絡み合ったディメンションに分解するベンチマークスイートである。
我々は、人間の知覚とベンチマークの整合性を検証するために、人間の嗜好アノテーションのデータセットを提供する。
VBench++は、テキスト・トゥ・ビデオと画像・トゥ・ビデオの評価をサポートする。
論文 参考訳(メタデータ) (2024-11-20T17:54:41Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。