論文の概要: Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.02880v1
- Date: Fri, 03 Oct 2025 10:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.349136
- Title: Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models
- Title(参考訳): 多モード離散拡散モデルのための強化学習
- Authors: Tianren Ma, Mu Zhang, Yibing Wang, Qixiang Ye,
- Abstract要約: 離散拡散においてスケーラブルなマルチモーダル強化学習を実現するための,最初の実行可能なアプローチであるMaskGRPOを紹介する。
MaskGRPOはより安定的で効率的なアップデートをもたらし、推論性能が向上し、世代品質が向上する。
- 参考スコア(独自算出の注目度): 40.82263997290613
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Optimizing discrete diffusion model (DDM) with rewards remains a challenge: the non-autoregressive paradigm makes importance sampling intractable and rollout complex, puzzling reinforcement learning methods such as Group Relative Policy Optimization (GRPO). In this study, we introduce MaskGRPO, the first viable approach to enable scalable multimodal reinforcement learning in discrete diffusion with effective importance sampling and modality-specific adaptations. To this end, we first clarify the theoretical foundation for DDMs, which facilitates building an importance estimator that captures valuable token fluctuation for gradient updates. We then delicately tailored the rollout method for visual sequences, which yields diverse completions and reliable optimization gradients. Upon math reasoning, coding, and visual generation benchmarks, MaskGRPO brings more stable and efficient updates, leading to stronger reasoning performance and better generation quality. This study establishes MaskGRPO as a systematic policy optimization approach and the first practical way for discretized visual diffusion.
- Abstract(参考訳): 非自己回帰的パラダイムは、グループ相対的ポリシー最適化(GRPO)などの強化学習手法の抽出とロールアウトを重要視する。
本研究では,分散拡散における拡張性のあるマルチモーダル強化学習を実現するための最初のアプローチであるMaskGRPOを紹介する。
この目的のために,我々はまずDDMの理論的基礎を明らかにする。これは,勾配更新に有用なトークン変動を捉える重要な推定器の構築を容易にする。
次に,視覚系列のロールアウト法を微妙に調整し,多種多様な完成度と信頼性の高い最適化勾配を導出する。
MaskGRPOは、数学推論、コーディング、およびビジュアルジェネレーションベンチマークによって、より安定的で効率的な更新を実現し、推論性能が向上し、生成品質が向上する。
本研究は,MaskGRPOを体系的政策最適化アプローチとして確立し,視覚拡散を識別するための最初の実践的方法である。
関連論文リスト
- Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - Diffusion-Based Symbolic Regression [20.941908494137806]
拡散は生成モデリングの強力なフレームワークとして登場し、画像や音声合成などのアプリケーションで顕著な成功を収めている。
本稿では,新しい拡散に基づくシンボリック回帰手法を提案する。
我々は,多様かつ高品質な方程式を生成するために,ランダムマスクに基づく拡散・分極プロセスを構築した。
論文 参考訳(メタデータ) (2025-05-30T16:39:29Z) - MMaDA: Multimodal Large Diffusion Language Models [61.13527224215318]
マルチモーダル拡散基礎モデルの新たなクラスであるMMaDAを紹介する。
テキスト推論、マルチモーダル理解、テキスト・ツー・イメージ生成など、さまざまな領域で優れたパフォーマンスを実現するように設計されている。
論文 参考訳(メタデータ) (2025-05-21T17:59:05Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。