論文の概要: Reward Sharpness-Aware Fine-Tuning for Diffusion Models
- arxiv url: http://arxiv.org/abs/2603.21175v1
- Date: Sun, 22 Mar 2026 11:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.276831
- Title: Reward Sharpness-Aware Fine-Tuning for Diffusion Models
- Title(参考訳): 拡散モデルの逆シャープ性を考慮した微調整
- Authors: Kwanyoung Kim, Byeongsu Sim,
- Abstract要約: 人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるのに有効であることが証明されている。
RDRLは、報酬のスコアが、知覚的品質の改善を伴わずに増加するような、報酬のハッキングの影響を受けやすいままである。
我々は、リトレーニングを必要とせず、頑健な報酬モデルから勾配を利用する手法を提案する。
- 参考スコア(独自算出の注目度): 10.026496861838448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has proven effective in aligning large language models with human preferences, inspiring the development of reward-centric diffusion reinforcement learning (RDRL) to achieve similar alignment and controllability. While diffusion models can generate high-quality outputs, RDRL remains susceptible to reward hacking, where the reward score increases without corresponding improvements in perceptual quality. We demonstrate that this vulnerability arises from the non-robustness of reward model gradients, particularly when the reward landscape with respect to the input image is sharp. To mitigate this issue, we introduce methods that exploit gradients from a robustified reward model without requiring its retraining. Specifically, we employ gradients from a flattened reward model, obtained through parameter perturbations of the diffusion model and perturbations of its generated samples. Empirically, each method independently alleviates reward hacking and improves robustness, while their joint use amplifies these benefits. Our resulting framework, RSA-FT (Reward Sharpness-Aware Fine-Tuning), is simple, broadly compatible, and consistently enhances the reliability of RDRL.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の嗜好の整合性を証明し、報酬中心拡散強化学習(RDRL)を開発し、同様のアライメントと制御性を実現する。
拡散モデルは高品質なアウトプットを生成することができるが、RDRLは報酬のハッキングの影響を受けやすいままであり、報酬のスコアは知覚的品質の改善を伴わずに増大する。
この脆弱性は、特に入力画像に対する報酬景観が鋭い場合に、報酬モデル勾配の非破壊性から生じることを実証する。
この問題を軽減するため、リトレーニングを必要とせず、頑健な報酬モデルから勾配を利用する手法を提案する。
具体的には、拡散モデルのパラメータ摂動と生成されたサンプルの摂動から得られる平坦な報酬モデルからの勾配を用いる。
経験的に、それぞれの方法が単独で報酬のハッキングを軽減し、堅牢性を向上させる一方で、共同使用はこれらの利点を増幅する。
我々のフレームワークであるRSA-FT(Reward Sharpness-Aware Fine-Tuning)はシンプルで、広く互換性があり、一貫してRDRLの信頼性を高める。
関連論文リスト
- Mitigating Reward Hacking in RLHF via Bayesian Non-negative Reward Modeling [49.41422138354821]
非負の因子分析をBradley-Terry選好モデルに統合する原理的報酬モデリングフレームワークを提案する。
BNRMは、スパースで非負の潜在因子生成過程を通じて報酬を表す。
BNRMは報酬の過度な最適化を著しく軽減し、分布シフトによるロバスト性を改善し、強いベースラインよりも解釈可能な報酬分解をもたらすことを示す。
論文 参考訳(メタデータ) (2026-02-11T08:14:11Z) - FinPercep-RM: A Fine-grained Reward Model and Co-evolutionary Curriculum for RL-based Real-world Super-Resolution [87.57784204422218]
人間のフィードバックによる強化学習は、人間の好みを調整する報酬モデルによって導かれる画像生成分野で有効であることが証明されている。
本稿では, アンコーダ・デコーダアーキテクチャに基づく細粒度パーセプ・リワードモデル(FinPercep-RM)を提案する。
グローバルな品質スコアを提供する一方で、局所的な欠陥を空間的に局所化し定量化する知覚的劣化マップも生成する。
論文 参考訳(メタデータ) (2025-12-27T16:55:21Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Reward Models Can Improve Themselves: Reward-Guided Adversarial Failure Mode Discovery for Robust Reward Modeling [27.11560841914813]
本稿では,自己改善型報酬モデルであるREFORMを紹介する。
我々は、広く使われている2つの嗜好データセットであるArthhropic Helpful Harmless (HH)とPKU Beavertailsについて、REFORMを評価した。
論文 参考訳(メタデータ) (2025-07-08T21:56:33Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized
Control [54.132297393662654]
拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。
拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質など他の特性にもっと関心を持っている。
本稿では,本フレームワークが真に報酬の高い多種多様なサンプルを効率よく生成できることを示す理論的,実証的な証拠を示す。
論文 参考訳(メタデータ) (2024-02-23T08:54:42Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment [32.752633250862694]
生成基礎モデルは、広範囲の教師なしのトレーニングデータから生じる暗黙のバイアスに影響を受けやすい。
我々は、生成モデルを効果的に整合させるために設計された新しいフレームワーク、Reward rAnked FineTuningを紹介する。
論文 参考訳(メタデータ) (2023-04-13T18:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。