論文の概要: dFlowGRPO: Rate-Aware Policy Optimization for Discrete Flow Models
- arxiv url: http://arxiv.org/abs/2605.09291v1
- Date: Sun, 10 May 2026 03:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.171091
- Title: dFlowGRPO: Rate-Aware Policy Optimization for Discrete Flow Models
- Title(参考訳): dFlowGRPO:離散フローモデルに対するレートアウェアポリシー最適化
- Authors: Zhengyan Wan, Yidong Ouyang, Panwen Hu, Qiang Sun,
- Abstract要約: 本稿では,離散フローモデルのための統合強化学習フレームワークであるFlow-GRPOを提案する。
マルコフ決定過程として DFM と定式化の完全な軌道確率を導出する。
本稿では,最近のマルチモーダル離散フローモデルであるFUDOKIにdFlowGRPOを適用し,画像生成タスクとマルチモーダル理解タスクの両方で評価する。
- 参考スコア(独自算出の注目度): 8.198964054238731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete flow models (DFMs) are a class of flexible generative models for generating discrete data, and diffusion large language models (dLLMs) can be viewed as a special case with a specific choice of mixture path and a masked source distribution. While several recent works have explored reinforcement learning into dLLMs, its application to more general discrete flow models remains underexplored. In this work, we present discrete Flow-GRPO (dFlowGRPO), a unified reinforcement learning framework for discrete flow models that supports a broad family of probability paths and non-masked source distributions. We derive the full trajectory probability for DFMs and formulate denoising as a Markov decision process, enabling dFlowGRPO to incorporate information from both the associated conditional transition rates and the posterior model during reinforcement learning. We apply dFlowGRPO to FUDOKI, a recent multimodal discrete flow model, and evaluate it on both image generation and multimodal understanding tasks. Empirical results show that dFlowGRPO outperforms existing GRPO-type methods for dLLMs on text-to-image generation tasks and achieves performance competitive with continuous flow-based models trained using FlowGRPO, while also demonstrating strong capabilities on understanding tasks.
- Abstract(参考訳): 離散フローモデル (DFM) は離散データを生成するフレキシブルな生成モデルの一種であり、拡散大言語モデル (dLLM) は特定の混合経路とマスクされたソース分布を選択する特別な場合とみなすことができる。
近年のいくつかの研究は、強化学習をdLLMに適用する研究を行っているが、より一般的な離散フローモデルへの応用はいまだ検討されていない。
本研究では、離散フローモデルのための統合強化学習フレームワークである、離散フロー-GRPO(dFlowGRPO)について述べる。
我々は,DFMの完全軌跡確率をマルコフ決定過程として定式化することにより,強化学習において,dFlowGRPOが関連する条件遷移率と後部モデルの両方から情報を組み込むことが可能となる。
本稿では,最近のマルチモーダル離散フローモデルであるFUDOKIにdFlowGRPOを適用し,画像生成タスクとマルチモーダル理解タスクの両方で評価する。
実験結果から,dFlowGRPOは,テキスト・画像生成タスクにおけるdLLMの既存のGRPO方式よりも優れており,FlowGRPOを用いてトレーニングした連続フローベースモデルと競合する性能を実現している。
関連論文リスト
- Efficient Flow Matching using Latent Variables [9.363347684114474]
我々は、texttLatent-CFM$は、最先端のフローマッチングモデルよりも、トレーニングや計算が大幅に少ないため、生成品質が向上していることを示す。
また、物理過程から生じる空間場の生成的モデリングについても検討する。
論文 参考訳(メタデータ) (2025-05-07T14:59:23Z) - TFG-Flow: Training-free Guidance in Multimodal Generative Flow [73.93071065307782]
本稿では,マルチモーダルな生成フローのためのトレーニング不要指導法TFG-Flowを紹介する。
TFG-Flowは、離散変数の導出において、非バイアスサンプリングの特性を維持しながら、次元の呪いに対処する。
TFG-Flowは, 所望の特性を持つ分子を生成することにより, 薬物設計において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-01-24T03:44:16Z) - Neural Flow Diffusion Models: Learnable Forward Process for Improved Diffusion Modelling [2.1779479916071067]
より広い範囲のプロセスをサポートすることで拡散モデルを強化する新しいフレームワークを提案する。
また,前処理を学習するための新しいパラメータ化手法を提案する。
結果はNFDMの汎用性と幅広い応用の可能性を評価する。
論文 参考訳(メタデータ) (2024-04-19T15:10:54Z) - Generative Flows on Discrete State-Spaces: Enabling Multimodal Flows with Applications to Protein Co-Design [37.634098563033795]
本稿では、フローベース生成モデルの実現に欠落したリンクを提供する離散データのフローベースモデルを提案する。
私たちの重要な洞察は、連続時間マルコフ連鎖を用いて連続空間フローマッチングの離散的等価性を実現できるということです。
この能力をタンパク質共設計のタスクに適用し、タンパク質の構造と配列を共同生成するモデルを学ぶ。
論文 参考訳(メタデータ) (2024-02-07T16:15:36Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。