論文の概要: Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards
- arxiv url: http://arxiv.org/abs/2503.11240v1
- Date: Fri, 14 Mar 2025 09:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:34.017194
- Title: Towards Better Alignment: Training Diffusion Models with Reinforcement Learning Against Sparse Rewards
- Title(参考訳): より良いアライメントを目指して:スパース・リワードに対する強化学習による拡散モデルの訓練
- Authors: Zijing Hu, Fengda Zhang, Long Chen, Kun Kuang, Jiahui Li, Kaifeng Gao, Jun Xiao, Xin Wang, Wenwu Zhu,
- Abstract要約: 拡散モデル微調整では強化学習(RL)が検討されている。
RLの有効性はスパース報酬の挑戦によって制限される。
$textB2text-DiffuRL$は既存の最適化アルゴリズムと互換性がある。
- 参考スコア(独自算出の注目度): 52.90573877727541
- License:
- Abstract: Diffusion models have achieved remarkable success in text-to-image generation. However, their practical applications are hindered by the misalignment between generated images and corresponding text prompts. To tackle this issue, reinforcement learning (RL) has been considered for diffusion model fine-tuning. Yet, RL's effectiveness is limited by the challenge of sparse reward, where feedback is only available at the end of the generation process. This makes it difficult to identify which actions during the denoising process contribute positively to the final generated image, potentially leading to ineffective or unnecessary denoising policies. To this end, this paper presents a novel RL-based framework that addresses the sparse reward problem when training diffusion models. Our framework, named $\text{B}^2\text{-DiffuRL}$, employs two strategies: \textbf{B}ackward progressive training and \textbf{B}ranch-based sampling. For one thing, backward progressive training focuses initially on the final timesteps of denoising process and gradually extends the training interval to earlier timesteps, easing the learning difficulty from sparse rewards. For another, we perform branch-based sampling for each training interval. By comparing the samples within the same branch, we can identify how much the policies of the current training interval contribute to the final image, which helps to learn effective policies instead of unnecessary ones. $\text{B}^2\text{-DiffuRL}$ is compatible with existing optimization algorithms. Extensive experiments demonstrate the effectiveness of $\text{B}^2\text{-DiffuRL}$ in improving prompt-image alignment and maintaining diversity in generated images. The code for this work is available.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な成功を収めた。
しかし、それらの実践的応用は、生成された画像と対応するテキストプロンプトのミスアライメントによって妨げられる。
この問題に対処するために、拡散モデル微調整のための強化学習(RL)が検討されている。
しかし、RLの有効性は、生成プロセスの最後にしかフィードバックが得られないスパース報酬の課題によって制限される。
これにより、デノナイジングプロセス中のどのアクションが最終生成画像に肯定的に寄与するかを特定することが難しくなり、潜在的に非効率または不要なデノナイジングポリシーにつながる可能性がある。
そこで本研究では,拡散モデルのトレーニングにおいて,スパース報酬問題に対処する新しいRLベースのフレームワークを提案する。
我々のフレームワークは、$\text{B}^2\text{-DiffuRL}$と名付けられ、次の2つの戦略を採用している: \textbf{B}ackwardプログレッシブトレーニングと \textbf{B}ranchベースのサンプリング。
ひとつは、後進的なトレーニングは、まず最初に、認知プロセスの最終段階に焦点を合わせ、トレーニングインターバルを早期の段階まで徐々に拡張し、スパース報酬からの学習困難を緩和する。
別の例として、トレーニング間隔毎にブランチベースのサンプリングを行う。
同じブランチ内のサンプルを比較することで、現在のトレーニング間隔のポリシが最終的なイメージにどの程度貢献するかを特定できます。
$\text{B}^2\text{-DiffuRL}$は既存の最適化アルゴリズムと互換性がある。
広汎な実験は、生成画像の即時アライメントを改善し、多様性を維持するために$\text{B}^2\text{-DiffuRL}$の有効性を示す。
この作業のコードは公開されている。
関連論文リスト
- Learning to Sample Effective and Diverse Prompts for Text-to-Image Generation [34.08660401151558]
本稿では,元のプロンプトをモデル優先のプロンプトに洗練し,所望の画像を生成するプロンプト適応に着目する。
textbfGFlowNets (textbfPAG) を用いた textbfPrompt textbfAdaptation を導入する。
論文 参考訳(メタデータ) (2025-02-17T06:28:53Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-19T17:34:27Z) - ACT-Diffusion: Efficient Adversarial Consistency Training for One-step Diffusion Models [59.90959789767886]
整合性トレーニング損失の最適化は,目標分布と生成分布とのワッサーシュタイン距離を最小化することを示す。
CIFAR10 と ImageNet 64$times$64 と LSUN Cat 256$times$256 データセットの FID スコアを改善する。
論文 参考訳(メタデータ) (2023-11-23T16:49:06Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion
Models [97.31200133440308]
我々は、オンライン強化学習を用いて、テキスト・ツー・イメージモデルを微調整する。
拡散モデルに焦点をあて、微調整タスクをRL問題として定義する。
我々のアプローチはDPOKと呼ばれ、政策最適化とKL正規化を統合している。
論文 参考訳(メタデータ) (2023-05-25T17:35:38Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。