A Systematic Post-Train Framework for Video Generation
Abstractの概要
本論文は、動画拡散モデルのための統一的なポストトレーニングフレームワークを提案しており、4つの段階で構成される:安定した指示追従行動を確立するための教師ありファインチューニング(SFT)、知覚品質と時間的一貫性を改善するためのGRPOベースの人間フィードバックからの強化学習(RLHF)、同じ報酬信号で訓練されたLLMによるプロンプト強化(PE)でユーザー入力を洗練する段階、および自己強制目的関数を用いた自己回帰蒸留(AD)による効率的な推論。このフレームワークは、プロンプト感度、時間的不整合、局所的なアーティファクト、高いサンプリングコストといった一般的なデプロイ課題を対象としている。内部の動画生成モデルに対して、視覚品質、動き品質、テキスト整合性についてGood-Same-Bad(GSB)プロトコルを用いた人間評価が実施されている。
新規性
主な新規性は、SFT、フローマッチング動画拡散に適応したGRPOベースのRLHF、報酬駆動型プロンプト強化、自己回帰蒸留という4つのポストトレーニング要素を、個別に対処するのではなく単一の統一パイプラインに体系的に統合した点にある。また、GRPOを動画生成で実行可能にするために等時間グルーピングと単一タイムステップODE-SDE遷移および時間的勾配修正を適用し、同じ報酬駆動フレームワークで生成器とプロンプト強化器の両方を訓練している。
成果
著者らの内部モデルにおいて、RLHF段階は全体的なGSB指標で31%の改善を達成し、視覚品質と動き品質で最大の向上が見られ、テキスト整合性の改善はより控えめであった(著者らはこれを現行のテキスト整合性報酬モデルの限界に帰している)。プロンプト強化器の追加により、主に視覚品質と動き品質の向上によってさらに20%の全体的なGSB改善が得られ、テキスト整合性は維持された。
論文の注目点
- 本フレームワークは動画のポストトレーニングを4段階(SFT、等時間グルーピングと時間的勾配修正を伴うGRPOベースRLHF、プロンプト強化、自己回帰蒸留)に整理し、それぞれが異なるデプロイ上のギャップに対処している。
- 人間評価では視覚品質と動き品質でGSBの最大の改善が示される一方、テキスト整合性の改善はより控えめであり、著者らはこれを現行のテキスト-動画整合性報酬モデルの精度の限界に帰している。
- プロンプト強化は、生成バックボーンを変更することなく、類似の報酬信号(テキスト-動画整合性、動画美学、構造的制約)の下でユーザー入力を最適化することで、生成器側のRLHFを補完している。
参考リンク
- arXiv: https://arxiv.org/abs/2604.25427v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2604.25427v1
- Hugging Face Papers: https://huggingface.co/papers/2604.25427