論文の概要: Flow-OPD: On-Policy Distillation for Flow Matching Models
- arxiv url: http://arxiv.org/abs/2605.08063v1
- Date: Fri, 08 May 2026 17:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.254556
- Title: Flow-OPD: On-Policy Distillation for Flow Matching Models
- Title(参考訳): Flow-OPD:フローマッチングモデルのためのオンポリシィ蒸留
- Authors: Zhen Fang, Wenxuan Huang, Yu Zeng, Yiming Zhao, Shuang Chen, Kaituo Feng, Yunlong Lin, Lin Chen, Zehui Chen, Shaosheng Cao, Feng Zhao,
- Abstract要約: Flow-OPDは、オンライン蒸留をFlow Matchingモデルに統合するフレームワークである。
これはGenEvalのスコアを63から92に引き上げ、OCRの精度を59から94に引き上げ、バニラGRPOよりも10点程度向上した。
これらの結果は、汎用的なテキスト-画像モデルを構築するためのスケーラブルなアライメントパラダイムとして、Flow-OPDを確立する。
- 参考スコア(独自算出の注目度): 42.290892456464896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Flow Matching (FM) text-to-image models suffer from two critical bottlenecks under multi-task alignment: the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking. Inspired by the success of On-Policy Distillation (OPD) in the large language model community, we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models. Flow-OPD adopts a two-stage alignment strategy: it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning, allowing each expert to reach its performance ceiling in isolation; it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision. We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment. Built upon Stable Diffusion 3.5 Medium, Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO, while preserving image fidelity and human-preference alignment and exhibiting an emergent 'teacher-surpassing' effect. These results establish Flow-OPD as a scalable alignment paradigm for building generalist text-to-image models.
- Abstract(参考訳): 既存のフローマッチング (FM) テキスト・ツー・イメージモデルは、マルチタスクアライメントの下で2つの重要なボトルネックに悩まされている。
大規模言語モデルコミュニティにおけるOPD(On-Policy Distillation)の成功に触発されて、我々は、オンライン蒸留をフローマッチングモデルに統合する最初の統合後トレーニングフレームワークであるFlow-OPDを提案する。
Flow-OPDは、2段階のアライメント戦略を採用している: 最初は単方向GRPO微調整によってドメイン特化教師モデルを育成し、各専門家が単独でパフォーマンスの天井に達することができるようにし、次にフローベースのコールド・スタートスキームを通じて堅牢な初期方針を確立し、オン・ポリシー・サンプリング、タスク・ルーティング・ラベリング、密集した軌道レベルの監督という3段階のオーケストレーションを通じて、異種専門知識を1つの学生にシームレスに統合する。
さらに,タスク非依存の教師を駆使して,高品質な多様体に生成を固定し,純粋にRL駆動アライメントでよく見られる美的劣化を効果的に軽減する完全データ管理を提供するマニフォールドアンカー正規化(MAR)についても紹介する。
Flow-OPDは安定拡散3.5媒体に基づいて構築され、GenEvalのスコアを63から92に、OCRの精度を59から94に引き上げ、バニラGRPOよりも約10ポイント向上した。
これらの結果は、汎用的なテキスト-画像モデルを構築するためのスケーラブルなアライメントパラダイムとして、Flow-OPDを確立する。
関連論文リスト
- Improved techniques for fine-tuning flow models via adjoint matching: a deterministic control pipeline [7.967038299436285]
本稿では,フローベース生成モデルに対する人間の嗜好アライメントを定式化する決定論的随伴マッチングフレームワークを提案する。
この観点から、軌道の終端部分に焦点をあてたトランク付き随伴スキームを導入する。
我々は、標準KLベースの正規化を超えてフレームワークをさらに一般化し、アライメント強度と分布保存の間のより柔軟なトレードオフを可能にする。
論文 参考訳(メタデータ) (2026-05-07T17:12:47Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation [51.41441081823758]
インターリーブドジェネレーションが可能な統一モデルが有望なパラダイムとして登場している。
インターリーブ・ジェネレーションに適した統合強化学習フレームワークを提案する。
実験により,この統合学習レシピは推論による画像生成品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2026-03-24T17:59:17Z) - Active Flow Matching [14.437387789022354]
アクティブフローマッチング(AFM)は、フローに沿った条件付きエンドポイント分布を操作するための変動目的を再構成する。
我々は、自己正規化重要度サンプリングを用いて、前方および逆のKullback-Leibler(KL)変異を導出する。
論文 参考訳(メタデータ) (2026-03-01T02:50:07Z) - Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics [49.242224984144904]
本稿では,プロセス報酬勾配誘導ダイナミクスによる生成を支援する新しいフレームワークであるEuphoniumを提案する。
我々の重要な洞察は、プロセス・リワード・モデルの勾配を明示的に組み込んだ理論的に原理化されたアルゴリズムとしてサンプリング・プロセスを定式化することである。
我々は,誘導信号をフローネットワークに内部化する蒸留目標を導出し,報奨モデルへの推論時間依存性を排除した。
論文 参考訳(メタデータ) (2026-02-04T08:59:57Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Fine-tuning Flow Matching Generative Models with Intermediate Feedback [23.447961856739422]
フローベースの生成モデルは、テキスト・画像生成において顕著な成功を収めている。
既存のアプローチは、クレジット代入問題に苦しむ結果報酬からのみ学習する。
我々は3つの重要なイノベーションを通じてこれらの課題に対処する、堅牢なアクター批判フレームワークであるAC-Flowを紹介します。
論文 参考訳(メタデータ) (2025-10-20T20:08:03Z) - Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models [31.470613363668672]
Adaptive Divergence Regularized Policy Optimization (Adaptive Divergence Regularized Policy Optimization) は、有利な推定値に基づいて正規化強度を自動的に調整する。
We implementation with Wasserstein-2 regularization for flow matching generative model is achieved great results on text-to-image generation。
ADRPOはテキストのみのLLMとマルチモーダル推論モデルの両方をKL規則化された微調整に一般化する。
論文 参考訳(メタデータ) (2025-10-20T19:46:02Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。