論文の概要: Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.15980v1
- Date: Fri, 15 May 2026 14:13:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.310233
- Title: Flash-GRPO: Efficient Alignment for Video Diffusion via One-Step Policy Optimization
- Title(参考訳): Flash-GRPO: ワンステップポリシー最適化によるビデオ拡散の効率的なアライメント
- Authors: Xiaoxuan He, Siming Fu, Zeyue Xue, Weijie Wang, Ruizhe He, Yuming Li, Dacheng Yin, Shuai Dong, Haoyang Huang, Hongfa Wang, Nan Duan, Bohan Zhuang,
- Abstract要約: グループ相対政策最適化は、ビデオ拡散モデルと人間の嗜好の整合に不可欠である。
既存の効率の手法は、最適化を妥協し、深刻な不安定を示し、完全な軌道性能に到達できなかった。
Flash-GRPOは,低計算予算下でのアライメント品質において,完全な軌道学習よりも優れた1ステップのトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 69.03519018775779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization has emerged as essential for aligning video diffusion models with human preferences, but faces a critical computational bottleneck: training a 14B parametered model typically demands hundreds of GPU days per experiment. Existing efficiency methods reduce costs through sliding window subsampling training timesteps, but fundamentally compromise optimization, exhibiting severe instability and failing to reach full trajectory performance. We present Flash-GRPO, a single-step training framework that outperforms full trajectory training in alignment quality under low computational budgets while substantially improving training efficiency. Flash-GRPO addresses two critical challenges: iso-temporal grouping eliminates timestep-confounded variance by enforcing prompt-wise temporal consistency, decoupling policy performance from timestep difficulty; temporal gradient rectification neutralizes the time-dependent scaling factor that causes vastly inconsistent gradient magnitudes across timesteps. Experiments on 1.3B to 14B parameter models validate Flash-GRPO's effectiveness, demonstrating substantial training acceleration with consistent stability and state-of-the-art alignment quality.
- Abstract(参考訳): グループ相対ポリシー最適化(Group Relative Policy Optimization)は、ビデオ拡散モデルを人間の好みに合わせるために必要とされているが、重要な計算ボトルネックに直面している。
既存の効率性は、スライディングウィンドウによるトレーニングタイムステップのサブサンプリングによってコストを削減するが、基本的に最適化を妥協し、深刻な不安定性を示し、完全な軌道性能に到達できなかった。
Flash-GRPOは,低予算下でのアライメント品質で全軌道トレーニングを上回り,トレーニング効率を大幅に向上する単一ステップトレーニングフレームワークである。
Flash-GRPOは2つの重要な課題に対処する: 等時的グループ化は、早急な時間的一貫性を強制し、ポリシー性能を時間的困難から切り離し、時間的勾配の修正は時間に依存したスケーリング要因を中和する。
1.3B から 14B のパラメータモデルによる実験は、Flash-GRPO の有効性を評価し、一貫性のある安定性と最先端のアライメント品質を備えた相当なトレーニングアクセラレーションを示す。
関連論文リスト
- Diffusion-APO: Trajectory-Aware Direct Preference Alignment for Video Diffusion Transformers [12.948398661304184]
Diffusion-APOは、ビデオ拡散モデルと人間の意図を一致させる軌跡認識アルゴリズムである。
オンラインランキング、半オンラインアンカー、オフラインリファインメント、蒸留対応ドリフト補正を統合した統一かつモジュール化されたRLHFフレームワークを導入する。
本研究では,Diffusion-APOが視覚的品質と指示の基準線を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-08T09:37:46Z) - A Systematic Post-Train Framework for Video Generation [76.26555417456773]
大規模ビデオ拡散モデルでは、高解像度でセマンティックにリッチなコンテンツを生成できることが顕著に示されている。
迅速な感度、時間的不整合、禁止的推論コストといった重要な問題のために、事前訓練されたパフォーマンスと実際のデプロイメント要件の間には、大きなギャップが残っている。
本研究では,事前学習されたモデルとユーザの意図を4つの相乗的段階を通して体系的に整合させる総合的なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T09:34:51Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Hierarchical Schedule Optimization for Fast and Robust Diffusion Model Sampling [19.936149710230275]
本稿では,HSO(Hierarchical-Schedule-r)を提案する。
HSOは、極低NFE体制におけるトレーニング不要サンプリングのための新しい最先端技術を設定している。
例えば、5 の NFE を持つ HSO は、安定拡散 v2.1 の LAION-Aesthetics において 11.94 の顕著な FID を達成する。
論文 参考訳(メタデータ) (2025-11-12T08:57:46Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - DriftLite: Lightweight Drift Control for Inference-Time Scaling of Diffusion Models [22.823183347642132]
本研究では,拡散モデルに対する予測時間スケーリングについて検討し,事前学習したモデルを新たなターゲット分布に適応させることを目標とする。
DriftLiteは軽量でトレーニング不要な粒子ベースのアプローチで、飛行中の推論ダイナミクスを最適に安定に制御する。
論文 参考訳(メタデータ) (2025-09-25T22:21:59Z) - A-FloPS: Accelerating Diffusion Sampling with Adaptive Flow Path Sampler [21.134678093577193]
A-FloPSは、フローベースの生成モデルのための原則化された、トレーニング不要のフレームワークである。
A-FloPSは, 試料品質と効率の両面において, 最先端のトレーニング不要サンプリング器より一貫して優れていることを示す。
5ドルの関数評価で、A-FloPSはFIDを大幅に低くし、よりシャープでコヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2025-08-22T13:28:16Z) - Fast and Stable Diffusion Planning through Variational Adaptive Weighting [3.745003761050674]
拡散モデルは、最近オフラインRLで有望であることが示されている。
これらの手法は、しばしば高い訓練コストと緩やかな収束に悩まされる。
本稿では,フローベース生成モデルに基づくオンライン推定のためのクローズドフォーム近似手法を提案する。
Maze2D タスクと Kitchen タスクの実験結果から,本手法は最大10倍のトレーニングステップで競争性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-20T02:12:04Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。