論文の概要: Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics
- arxiv url: http://arxiv.org/abs/2602.04928v1
- Date: Wed, 04 Feb 2026 08:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.551148
- Title: Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics
- Title(参考訳): Euphonium: Process Reward Gradient Guided Stochastic Dynamicsによるステアリングビデオフローマッチング
- Authors: Ruizhe Zhong, Jiesong Lian, Xiaoyue Mi, Zixiang Zhou, Yuan Zhou, Qinglin Lu, Junchi Yan,
- Abstract要約: フローマッチングモデルと人間の嗜好の整合に対する現在のアプローチは、トレーニングロールアウト中の非効率な探索によって妨げられている。
プロセス報酬誘導力学を用いて生成を行う新しいフレームワークであるEuphoniumを提案する。
トレーニング収束を1.66倍に加速しながら,既存の方法よりも優れたアライメントを実現することを示す。
- 参考スコア(独自算出の注目度): 49.242224984144904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While online Reinforcement Learning has emerged as a crucial technique for aligning flow matching models with human preferences, current approaches are hindered by inefficient exploration during training rollouts. Relying on undirected stochasticity and sparse outcome rewards, these methods struggle to discover high-reward samples, resulting in data-inefficient and slow optimization. To address these limitations, we propose Euphonium, a novel framework that steers generation via process reward gradient guided dynamics. Our key insight is to formulate the sampling process as a theoretically principled Stochastic Differential Equation that explicitly incorporates the gradient of a Process Reward Model into the flow drift. This design enables dense, step-by-step steering toward high-reward regions, advancing beyond the unguided exploration in prior works, and theoretically encompasses existing sampling methods (e.g., Flow-GRPO, DanceGRPO) as special cases. We further derive a distillation objective that internalizes the guidance signal into the flow network, eliminating inference-time dependency on the reward model. We instantiate this framework with a Dual-Reward Group Relative Policy Optimization algorithm, combining latent process rewards for efficient credit assignment with pixel-level outcome rewards for final visual fidelity. Experiments on text-to-video generation show that Euphonium achieves better alignment compared to existing methods while accelerating training convergence by 1.66x.
- Abstract(参考訳): オンライン強化学習は、フローマッチングモデルと人間の嗜好を整合させる重要な手法として登場したが、現在のアプローチは、トレーニングロールアウト中の非効率な探索によって妨げられている。
非直交確率とスパース結果の報奨に基づいて、これらの手法は高逆サンプルの発見に苦慮し、データ非効率と遅い最適化をもたらす。
これらの制約に対処するため,プロセス報酬勾配誘導力学を用いて生成を行う新しいフレームワークであるEuphoniumを提案する。
我々の重要な洞察は、サンプリングプロセスを理論的に原理化された確率微分方程式として定式化し、プロセスリワードモデルの勾配をフロードリフトに明示的に組み込むことである。
この設計により、高地への密着したステップバイステップのステアリングが可能となり、以前の研究で未解決の探索を超えて前進し、理論上既存のサンプリング手法(例えば、Flow-GRPO、DanceGRPO)を特別なケースとして包含する。
さらに、誘導信号をフローネットワークに内部化する蒸留目標を導出し、報酬モデルへの推論時間依存性を除去する。
我々は,このフレームワークをDual-Reward Group Relative Policy Optimizationアルゴリズムを用いてインスタンス化する。
テキスト・ビデオ生成の実験では、Euphoniumは既存の方法よりも優れたアライメントを実現し、トレーニング収束を1.66倍に加速している。
関連論文リスト
- FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories [82.90132015584359]
ReFlowはフローマッチングと理論的に整合性があるが、現実的なシナリオでは最適ではない。
本研究では,ReFlowをベースとした蒸留手法であるFlowSteerを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:13:23Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Coefficients-Preserving Sampling for Reinforcement Learning with Flow Matching [6.238027696245818]
Reinforcement Learning (RL) は拡散およびフローマッチングモデルにおける画像生成と映像生成を改善する強力な手法として登場した。
SDEに基づくサンプリングは、生成された画像に顕著なノイズアーティファクトを導入します。
提案手法であるCoefficients-Preserving Sampling (CPS)は,これらのノイズアーティファクトを除去する。
論文 参考訳(メタデータ) (2025-09-07T07:25:00Z) - Flows and Diffusions on the Neural Manifold [0.0]
拡散およびフローベース生成モデルは、画像合成、ビデオ生成、自然言語モデリングといった領域で顕著に成功している。
本研究では、最近の手法を活用して、これらの進歩を重み空間学習に拡張し、最適化力学から導かれる構造的事前を組み込む。
我々は,勾配流の整合性を考慮した軌道推論手法を統一し,最適化経路を帰納バイアスとして扱うための理論的枠組みを提供する。
論文 参考訳(メタデータ) (2025-07-14T02:26:06Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。