論文の概要: TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward
- arxiv url: http://arxiv.org/abs/2603.07700v1
- Date: Sun, 08 Mar 2026 15:57:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.031194
- Title: TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward
- Title(参考訳): TDM-R1: 微分不能逆流を伴うFew-Step拡散モデルの強化
- Authors: Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang,
- Abstract要約: 数段階生成モデルのための新しい強化学習パラダイムであるTDM-R1を紹介する。
TDM-R1は学習プロセスを分離し、報酬学習と発電機学習を補助する。
その結果、TDM-R1は、数ステップのテキスト・ツー・イメージモデルのための強力な強化学習パラダイムであることがわかった。
- 参考スコア(独自算出の注目度): 24.136443751641607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While few-step generative models have enabled powerful image and video generation at significantly lower cost, generic reinforcement learning (RL) paradigms for few-step models remain an unsolved problem. Existing RL approaches for few-step diffusion models strongly rely on back-propagating through differentiable reward models, thereby excluding the majority of important real-world reward signals, e.g., non-differentiable rewards such as humans' binary likeness, object counts, etc. To properly incorporate non-differentiable rewards to improve few-step generative models, we introduce TDM-R1, a novel reinforcement learning paradigm built upon a leading few-step model, Trajectory Distribution Matching (TDM). TDM-R1 decouples the learning process into surrogate reward learning and generator learning. Furthermore, we developed practical methods to obtain per-step reward signals along the deterministic generation trajectory of TDM, resulting in a unified RL post-training method that significantly improves few-step models' ability with generic rewards. We conduct extensive experiments ranging from text-rendering, visual quality, and preference alignment. All results demonstrate that TDM-R1 is a powerful reinforcement learning paradigm for few-step text-to-image models, achieving state-of-the-art reinforcement learning performances on both in-domain and out-of-domain metrics. Furthermore, TDM-R1 also scales effectively to the recent strong Z-Image model, consistently outperforming both its 100-NFE and few-step variants with only 4 NFEs. Project page: https://github.com/Luo-Yihong/TDM-R1
- Abstract(参考訳): 数ステップ生成モデルは強力な画像生成と映像生成を極めて低コストで実現しているが、数ステップモデルの汎用強化学習(RL)パラダイムは未解決の問題のままである。
既存の数段階拡散モデルのRLアプローチは、微分可能な報酬モデルによるバックプロパゲーションに強く依存しているため、人間の二項類似性や対象数など、重要な現実世界の報酬信号の大部分を排除している。
非微分可能報酬を適切に組み込んで数ステップ生成モデルを改善するために、先進的な数ステップモデルである軌道分布マッチング(TDM)上に構築された新しい強化学習パラダイムであるTDM-R1を導入する。
TDM-R1は学習プロセスを分離し、報酬学習と発電機学習を補助する。
さらに、TDMの決定論的生成軌道に沿ったステップごとの報酬信号を得るための実用的手法を開発し、その結果、汎用報酬を用いた数ステップモデルの能力を大幅に向上する統一的なRLポストトレーニング法が得られた。
テキストレンダリング、視覚的品質、好みのアライメントなど、幅広い実験を行います。
すべての結果は、TDM-R1が、ドメイン内およびドメイン外の両方で最先端の強化学習性能を達成するために、数ステップのテキスト・ツー・イメージモデルのための強力な強化学習パラダイムであることを示している。
さらに、TDM-R1は最近の強力なZイメージモデルに効果的にスケールし、100-NFEと4つのNFEしか持たない数ステップのモデルの両方を一貫して上回っている。
プロジェクトページ:https://github.com/Luo-Yihong/TDM-R1
関連論文リスト
- Towards Stable and Effective Reinforcement Learning for Mixture-of-Experts [113.0656076371565]
オフ・ポリティクス強化学習(RL)における重要サンプリング重み付けを最適化する新しいルータ認識手法を提案する。
具体的には、ルータロジットによって誘導される再スケーリング戦略を設計し、勾配のばらつきを効果的に低減し、トレーニングのばらつきを軽減する。
実験により, 本手法は収束安定性とMoEモデルの最終的な性能の両方を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T05:47:48Z) - DAWM: Diffusion Action World Models for Offline Reinforcement Learning via Action-Inferred Transitions [6.723690093335988]
本研究では,現在の状態,行動,帰路を条件に,将来の状態逆トラジェクトリを生成する拡散型世界モデルを提案する。
我々は、TD3BCやIQLのような保守的なオフラインRLアルゴリズムは、これらの拡張軌道のトレーニングから大きな恩恵を受けることを示す。
論文 参考訳(メタデータ) (2025-09-23T20:06:26Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Learning Few-Step Diffusion Models by Trajectory Distribution Matching [18.229753357571116]
トラジェクティブ・ディストリビュータ・マッチング(TDM)は、トラジェクタ・マッチングとトラジェクタ・マッチングの強さを組み合わせた統合蒸留パラダイムである。
我々は,学習目標を異なるステップで分離し,より調整可能なサンプリングを可能にする,サンプリングステップ対応の目標を開発する。
我々のモデルであるTDMは、様々なバックボーン上で既存の手法よりも優れており、優れた品質を提供し、トレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-09T15:53:49Z) - Avoiding mode collapse in diffusion models fine-tuned with reinforcement learning [0.0]
強化学習(RL)による微調整基礎モデルは、下流の目標に整合する上で有望であることが証明されている。
拡散モデル (DM) の階層的性質を生かし, 各エポックでRL法で動的に訓練する。
HRFで訓練したモデルは、下流タスクにおける多様性の保存性を向上し、微調整の堅牢性を高め、平均報酬を損なうことなく達成できることが示される。
論文 参考訳(メタデータ) (2024-10-10T19:06:23Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。