論文の概要: A Systematic Post-Train Framework for Video Generation
- arxiv url: http://arxiv.org/abs/2604.25427v1
- Date: Tue, 28 Apr 2026 09:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.80119
- Title: A Systematic Post-Train Framework for Video Generation
- Title(参考訳): 映像生成のための系統的ポストトレインフレームワーク
- Authors: Zeyue Xue, Siming Fu, Jie Huang, Shuai Lu, Haoran Li, Yijun Liu, Yuming Li, Xiaoxuan He, Mengzhao Chen, Haoyang Huang, Nan Duan, Ping Luo,
- Abstract要約: 大規模ビデオ拡散モデルでは、高解像度でセマンティックにリッチなコンテンツを生成できることが顕著に示されている。
迅速な感度、時間的不整合、禁止的推論コストといった重要な問題のために、事前訓練されたパフォーマンスと実際のデプロイメント要件の間には、大きなギャップが残っている。
本研究では,事前学習されたモデルとユーザの意図を4つの相乗的段階を通して体系的に整合させる総合的なポストトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 76.26555417456773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.
- Abstract(参考訳): 大規模ビデオ拡散モデルは、高解像度でセマンティックにリッチなコンテンツを生成するという印象的な能力を示しているが、迅速な感度、時間的不整合、禁止的推論コストといった重要な問題により、事前訓練されたパフォーマンスと実際のデプロイメント要件との間には大きなギャップが残っている。
このギャップを埋めるために,我々はまず,事前学習されたモデルとユーザの意図を体系的に整合させるための総合的なポストトレーニングフレームワークを提案する。まず,提案手法は,基本モデルを安定的な命令追従ポリシに変換するためにスーパーバイザードファインタニング(SFT)を使用し,次に,視覚的品質と時間的コヒーレンスを向上するためにビデオ拡散に適したグループ相対的ポリシー最適化(GRPO)手法を用いた,ヒューマンフィードバック(RLHF)段階からの強化学習を行い,さらに,ユーザ入力を洗練させるために特別な言語モデルを用いてプロンプトエンハンスメントを統合し,推論最適化を通じてシステム効率に対処する。
これらのコンポーネントは、事前学習中に学習した制御性を保ちながら、視覚的品質、時間的コヒーレンス、および指示に従うための体系的なアプローチを提供する。
その結果は、安定的で適応性があり、現実のデプロイメントに有効であるスケーラブルなポストトレーニングパイプラインを構築するための、実用的な青写真になります。
大規模な実験により、この統合パイプラインは共通のアーティファクトを効果的に軽減し、厳密なサンプリングコストの制約に固執しながら、制御性と視覚的美学を大幅に改善することを示した。
関連論文リスト
- TeleBoost: A Systematic Alignment Framework for High-Fidelity, Controllable, and Robust Video Generation [45.864084191741135]
ポストトレーニングは、事前訓練されたビデオジェネレータをプロダクション指向のモデルに変換するための決定的なステップである。
本報告では,指導的政策形成,報酬駆動型強化学習,嗜好に基づく改善を組織化する,体系的なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-07T15:49:25Z) - Efficient Conditional Generation on Scale-based Visual Autoregressive Models [26.81493253536486]
効率的な制御モデル(英語: Efficient Control Model、ECM)は、分散アーキテクチャを介して制御信号を導入する軽量制御モジュールを備えたプラグイン・アンド・プレイフレームワークである。
ECMは、リアルタイムに生成されたトークンと、その限られた容量の利用を最大化するために設計された共有フィードフォワードネットワーク(FFN)を用いて、条件付き機能を洗練する。
提案手法は,既存のベースラインを越えつつ,トレーニングと推論の効率を大幅に向上させるとともに,画像生成に対する高忠実かつ多様な制御を実現する。
論文 参考訳(メタデータ) (2025-10-07T06:27:03Z) - Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models [40.82263997290613]
離散拡散においてスケーラブルなマルチモーダル強化学習を実現するための,最初の実行可能なアプローチであるMaskGRPOを紹介する。
MaskGRPOはより安定的で効率的なアップデートをもたらし、推論性能が向上し、世代品質が向上する。
論文 参考訳(メタデータ) (2025-10-03T10:36:24Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。