論文の概要: Diff-Instruct with Diffused Reward: Towards Principled One-step Generator RL
- arxiv url: http://arxiv.org/abs/2605.24001v2
- Date: Tue, 26 May 2026 04:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.983731
- Title: Diff-Instruct with Diffused Reward: Towards Principled One-step Generator RL
- Title(参考訳): 拡散リワードによるディフインストラクション:原理的ワンステップジェネレータRLに向けて
- Authors: Junyi Wu, Weijian Luo, Haoyang Zheng, Ruizhe Zhang, Guang Lin,
- Abstract要約: ワンステップのテキスト・ツー・イメージ生成により、顕著な効率と品質でリアルタイムな合成が可能になった。
画像空間報酬最適化と拡散雑音空間分布マッチングを組み合わせた1ステップジェネレータの事前強化学習法について検討した。
KL最小化から導かれるデータフリーな軌道レベルのアライメントフレームワークであるDiff-Instruct with Diffused Reward (DIDR)を提案する。
- 参考スコア(独自算出の注目度): 16.321536102397733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in one-step text-to-image generation have enabled real-time synthesis with remarkable efficiency and quality. Previous reinforcement learning methods for one-step generators combine image-space reward optimization with diffusion noisy-space distribution matching. This paradigm brings challenges due to a mismatch between terminal reward optimization and the underlying generative dynamics. As a result, optimization tends to exploit stochastic degrees of freedom, often improving reward at the expense of image fidelity. To address this issue, we propose Diff-Instruct with Diffused Reward (DIDR), a data-free trajectory-level alignment framework derived from Integral KL minimization. DIDR propagates the RLHF-optimal reward-tilted clean-image distribution across all noise levels along the diffusion trajectory. We show that this objective admits the same minimizer as clean-image RLHF, while naturally inducing the Diffused Reward Score (DRS), which acts as a reward-driven correction to the reference score function. To make this practical, we further introduce the Diffused Reward Proxy (DRP), an efficient estimator of DRS based on differentiable short-step denoising. Extensive experiments demonstrate that DIDR consistently Pareto-dominates existing one-step SDXL baselines. Moreover, when transferred to a 6B DiT backbone (Z-Image), DIDR surpasses its 50-step teacher in preference alignment while requiring only a single generation step.
- Abstract(参考訳): 近年のワンステップテキスト・ツー・イメージ・ジェネレーションの進歩により、顕著な効率と品質でリアルタイムな合成が可能になった。
画像空間報酬最適化と拡散雑音空間分布マッチングを組み合わせた1ステップジェネレータの事前強化学習法について検討した。
このパラダイムは、端末報酬最適化と基礎となる生成力学のミスマッチによる課題をもたらす。
その結果、最適化は確率的な自由度を利用する傾向にあり、しばしば画像の忠実さを犠牲にして報酬を改善する。
この問題に対処するために、Integral KL最小化から派生したデータフリーなトラジェクトリレベルのアライメントフレームワークであるDiff-Instruct with Diffused Reward (DIDR)を提案する。
DIDRはRLHF最適報酬型クリーンイメージ分布を拡散軌道に沿った全てのノイズレベルに伝播する。
本研究の目的は,Diffused Reward Score (DRS, Diffused Reward Score) を誘導し, 基準スコア関数に対する報酬駆動補正を行う一方で, クリーンイメージRLHFと同じ最小限の最小値を持つことを示す。
これを実現するために,Diffused Reward Proxy (DRP) を導入する。
大規模な実験により、DIDRは既存の一段階のSDXLベースラインを一貫して支配していることが示された。
さらに、6B DiTバックボーン(Z-Image)に転送されると、DIDRは50ステップの教師を1世代だけ必要としながら、好みのアライメントで追い越す。
関連論文リスト
- Reinforcing Few-step Generators via Reward-Tilted Distribution Matching [34.875805803270524]
RTDMD (Reward-Tilted Distribution Matching Distillation) を提案する。
報奨型教師分布へのKL分散の最小化は,自然に分布マッチング項と報奨項に分解されることを示す。
SD3、SD3.5、FLUX.2の実験は、RTDMDが嗜好、美学、作曲のメトリクスをまたいだ新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2026-05-25T17:59:21Z) - Precise: SDE-Consistent Stochastic Sampling for RL Post-Training of Flow-Matching Models [56.67321805551389]
Reinforcement Learning (RL) は, 拡散・流れマッチングジェネレータにおいて, 迅速なアライメントと知覚品質の向上に有効な方法となっている。
探索行動の制御と力学のデノベーションを行うサンプルは、この方針の一部である。
有効探査と安定性のバランスをとる新しいサンプリング器を提案する。
論文 参考訳(メタデータ) (2026-05-22T11:37:22Z) - Disentangling Generation and Regression in Stochastic Interpolants for Controllable Image Restoration [30.480465453951982]
DiSIは、Interpolantプロセスを独立した生成および回帰コンポーネントに分離する統合フレームワークである。
本研究では,DiSIが画像復元タスクにおいて効率よく競合する結果を得ると同時に,単一モデル内での歪み知覚トレードオフを制御するための予測時間の柔軟性を独自に提供することを示す。
論文 参考訳(メタデータ) (2026-05-20T16:41:32Z) - Noise-Started One-Step Real-World Super-Resolution via LR-Conditioned SplitMeanFlow and GAN Refinement [32.05719533625606]
本稿では、LR条件の SplitMeanFlow と GAN の改良によるノイズスタート1ステップの Real-ISR フレームワークを提案する。
SMFSRは1ステップ拡散に基づくReal-ISR法において、高速な単一ステップ推論を維持しながら最先端の品質を実現する。
論文 参考訳(メタデータ) (2026-05-10T05:01:32Z) - LPNSR: Prior-Enhanced Diffusion Image Super-Resolution via LR-Guided Noise Prediction [4.609499769793957]
拡散に基づく画像超解像(SR)は、高分解能(HR)画像を対応する低分解能(LR)観測から再構成することを目的としている。
4段階の推論を効率よく行うと, 小型サンプリング軌道の劣化特性が著しく低下する。
これらの問題に対処するために,先進的な効率的な拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-22T03:52:38Z) - MIRA: Towards Mitigating Reward Hacking in Inference-Time Alignment of T2I Diffusion Models [86.07486858219137]
拡散モデルは、テキストプロンプトに条件付けされた画像を生成するのに優れている。
得られた画像は、Aesthetic Scoresのようなスカラー報酬によって測定されるユーザ固有の基準を満たさないことが多い。
近年,ノイズ最適化による推定時間アライメントが,効率的な代替手段として浮上している。
このアプローチは報酬のハッキングに苦しめられ、モデルが高いスコアの画像を生成できるが、元のプロンプトとはかなり異なる。
論文 参考訳(メタデータ) (2025-10-02T00:47:36Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。
まず、回帰損失と高価なデータセット構築の必要性を排除します。
第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文 参考訳(メタデータ) (2024-05-23T17:59:49Z) - BlindDiff: Empowering Degradation Modelling in Diffusion Models for Blind Image Super-Resolution [52.47005445345593]
BlindDiff は SISR のブラインド劣化に対処するための DM ベースのブラインドSR 手法である。
BlindDiffはMAPベースの最適化をDMにシームレスに統合する。
合成データセットと実世界のデータセットの両方の実験は、BlindDiffが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-03-15T11:21:34Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。