FuguReport

A Systematic Post-Train Framework for Video Generation

著者 Zeyue Xue, Siming Fu, Jie Huang, Shuai Lu, Haoran Li, Yijun Liu, Yuming Li, Xiaoxuan He, Mengzhao Chen, Haoyang Huang, Nan Duan, Ping Luo
所属 JD.com / The University of Hong Kong / Zhejiang University / Tsinghua University / Peking University
カテゴリ Method / Model Fine-Tuning / Post-training framework for alignment, Application / Video Generation / High-resolution semantically rich content, Evaluation / Deployment Efficiency / Gap between pretrained performance and deployment
ライセンス CC BY 4.0

Abstractの概要

本論文は、動画拡散モデルのための統一的なポストトレーニングフレームワークを提案しており、4つの段階で構成される:安定した指示追従行動を確立するための教師ありファインチューニング(SFT)、知覚品質と時間的一貫性を改善するためのGRPOベースの人間フィードバックからの強化学習(RLHF)、同じ報酬信号で訓練されたLLMによるプロンプト強化(PE)でユーザー入力を洗練する段階、および自己強制目的関数を用いた自己回帰蒸留(AD)による効率的な推論。このフレームワークは、プロンプト感度、時間的不整合、局所的なアーティファクト、高いサンプリングコストといった一般的なデプロイ課題を対象としている。内部の動画生成モデルに対して、視覚品質、動き品質、テキスト整合性についてGood-Same-Bad(GSB)プロトコルを用いた人間評価が実施されている。

新規性

主な新規性は、SFT、フローマッチング動画拡散に適応したGRPOベースのRLHF、報酬駆動型プロンプト強化、自己回帰蒸留という4つのポストトレーニング要素を、個別に対処するのではなく単一の統一パイプラインに体系的に統合した点にある。また、GRPOを動画生成で実行可能にするために等時間グルーピングと単一タイムステップODE-SDE遷移および時間的勾配修正を適用し、同じ報酬駆動フレームワークで生成器とプロンプト強化器の両方を訓練している。

成果

著者らの内部モデルにおいて、RLHF段階は全体的なGSB指標で31%の改善を達成し、視覚品質と動き品質で最大の向上が見られ、テキスト整合性の改善はより控えめであった(著者らはこれを現行のテキスト整合性報酬モデルの限界に帰している)。プロンプト強化器の追加により、主に視覚品質と動き品質の向上によってさらに20%の全体的なGSB改善が得られ、テキスト整合性は維持された。

論文の注目点

  1. 本フレームワークは動画のポストトレーニングを4段階(SFT、等時間グルーピングと時間的勾配修正を伴うGRPOベースRLHF、プロンプト強化、自己回帰蒸留)に整理し、それぞれが異なるデプロイ上のギャップに対処している。
  2. 人間評価では視覚品質と動き品質でGSBの最大の改善が示される一方、テキスト整合性の改善はより控えめであり、著者らはこれを現行のテキスト-動画整合性報酬モデルの精度の限界に帰している。
  3. プロンプト強化は、生成バックボーンを変更することなく、類似の報酬信号(テキスト-動画整合性、動画美学、構造的制約)の下でユーザー入力を最適化することで、生成器側のRLHFを補完している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。