論文の概要: Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance
- arxiv url: http://arxiv.org/abs/2508.21016v1
- Date: Thu, 28 Aug 2025 17:18:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.531032
- Title: Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance
- Title(参考訳): 強化学習誘導を伴う拡散モデルの推論時間アライメント制御
- Authors: Luozhijie Jin, Zijie Qiu, Jie Liu, Zijie Diao, Lifeng Qiao, Ning Ding, Alex Lamb, Xipeng Qiu,
- Abstract要約: 本稿では,Dejin-Free Guidance(CFG)に適応する推論時間法であるReinforcement Learning Guidance(RLG)を紹介する。
RLGは、RLの細調整されたモデルの性能を、人間の好み、構成制御、圧縮、テキストレンダリングなど、様々なRLアルゴリズム、下流タスクで一貫して改善している。
提案手法は,拡散モデルアライメント推論の強化と制御のための,実用的で理論的に健全な解を提供する。
- 参考スコア(独自算出の注目度): 46.06527859746679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising-based generative models, particularly diffusion and flow matching algorithms, have achieved remarkable success. However, aligning their output distributions with complex downstream objectives, such as human preferences, compositional accuracy, or data compressibility, remains challenging. While reinforcement learning (RL) fine-tuning methods, inspired by advances in RL from human feedback (RLHF) for large language models, have been adapted to these generative frameworks, current RL approaches are suboptimal for diffusion models and offer limited flexibility in controlling alignment strength after fine-tuning. In this work, we reinterpret RL fine-tuning for diffusion models through the lens of stochastic differential equations and implicit reward conditioning. We introduce Reinforcement Learning Guidance (RLG), an inference-time method that adapts Classifier-Free Guidance (CFG) by combining the outputs of the base and RL fine-tuned models via a geometric average. Our theoretical analysis shows that RLG's guidance scale is mathematically equivalent to adjusting the KL-regularization coefficient in standard RL objectives, enabling dynamic control over the alignment-quality trade-off without further training. Extensive experiments demonstrate that RLG consistently improves the performance of RL fine-tuned models across various architectures, RL algorithms, and downstream tasks, including human preferences, compositional control, compressibility, and text rendering. Furthermore, RLG supports both interpolation and extrapolation, thereby offering unprecedented flexibility in controlling generative alignment. Our approach provides a practical and theoretically sound solution for enhancing and controlling diffusion model alignment at inference. The source code for RLG is publicly available at the Github: https://github.com/jinluo12345/Reinforcement-learning-guidance.
- Abstract(参考訳): 微分に基づく生成モデル、特に拡散とフローマッチングアルゴリズムは驚くべき成功を収めた。
しかし、人間の好み、構成精度、データ圧縮性といった複雑な下流目標に出力分布を合わせることは依然として困難である。
大規模言語モデルに対する人間フィードバック(RLHF)からのRLの進歩にインスパイアされた強化学習(RL)ファインチューニング手法は,これらの生成フレームワークに適用されているが,現在のRLアプローチは拡散モデルに最適であり,微調整後のアライメント強度の制御に限られた柔軟性を提供する。
本研究では,確率微分方程式のレンズと暗黙の報酬条件による拡散モデルのRL微調整を再解釈する。
本稿では,RLモデルとベースモデルの出力を幾何平均で組み合わせ,分類自由誘導(CFG)を適応させる推論時間法であるReinforcement Learning Guidance(RLG)を紹介する。
理論解析により, RLGの誘導スケールは標準RL目標のKL正則化係数の調整と数学的に等価であることを示し, さらなるトレーニングを伴わずにアライメント品質のトレードオフを動的に制御できることを示した。
大規模な実験により、RLGは様々なアーキテクチャ、RLアルゴリズム、人間の好み、構成制御、圧縮性、テキストレンダリングを含む下流タスクにおいて、RLの微調整モデルの性能を一貫して改善することを示した。
さらに、RCGは補間と外挿の両方をサポートし、生成的アライメントを制御するのに前例のない柔軟性を提供する。
提案手法は,推論時の拡散モデルアライメントの強化と制御を行うための,実用的で理論的に健全な解を提供する。
RLGのソースコードはGithubで公開されている。 https://github.com/jinluo12345/Reinforcement-learning-guidance。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Normalizing Flows are Capable Models for RL [24.876149287707847]
本稿では,強化学習アルゴリズムにシームレスに統合した単一正規化フローアーキテクチャを提案する。
提案手法はより単純なアルゴリズムに導かれ,模倣学習,オフライン,目標条件付きRL,教師なしRLにおいて高い性能を実現する。
論文 参考訳(メタデータ) (2025-05-29T15:06:22Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [19.484676783876306]
拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文 参考訳(メタデータ) (2024-12-24T04:55:46Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。