論文の概要: GARDO: Reinforcing Diffusion Models without Reward Hacking
- arxiv url: http://arxiv.org/abs/2512.24138v1
- Date: Tue, 30 Dec 2025 10:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.359387
- Title: GARDO: Reinforcing Diffusion Models without Reward Hacking
- Title(参考訳): GARDO:リワードハックなしで拡散モデルを強化
- Authors: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan,
- Abstract要約: オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
- 参考スコア(独自算出の注目度): 54.841464430913476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.
- Abstract(参考訳): オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
しかし、視覚的なタスクの真剣な目標を正確に指定することは依然として難しいため、モデルはしばしば、真の目標を部分的に捉えたプロキシ報酬を使用して最適化される。
このミスマッチは、しばしば報酬のハッキングを引き起こし、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
一般的な解決策では、報酬のハッキングを防ぐための参照ポリシーに対して規則化が加えられるが、彼らはサンプル効率を妥協し、参照ポリシーが通常準最適であるため、新しい高水準領域の探索を妨げている。
サンプル効率,効率的な探索,報酬ハックの緩和という競合する要求に対処するため,様々なRLアルゴリズムと互換性のある多元性フレームワークであるGARDO(Gated and Adaptive Regularization with Diversity-aware Optimization)を提案する。
我々の重要な洞察は、正規化を普遍的に適用する必要はないということだ。代わりに、高い不確実性を示すサンプルのサブセットを選択的にペナルティ化するのは非常に効果的である。
探索課題に対処するため,GARDOでは,参照モデルを定期的に更新してオンラインポリシーの機能に適合させ,関連する正規化目標を確実にする適応正規化機構を導入している。
RLにおけるモード崩壊問題に対処するため、GARDOは、最適化プロセスを不安定にすることなく、高い多様性を示し、モードカバレッジを促進する高品質なサンプルに対する報酬を増幅する。
GARDOは、さまざまなプロキシ報酬と、見当たらないメトリクスの広範な実験によって、報酬のハッキングを緩和し、サンプル効率や探索を犠牲にすることなく、生成の多様性を高め、その有効性と堅牢性を強調している、と一貫して示している。
関連論文リスト
- Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Multi-Metric Preference Alignment for Generative Speech Restoration [15.696247605348383]
生成モデルに対するマルチメトリックな選好アライメント戦略を提案する。
3つの異なる生成パラダイムの一貫性と重要なパフォーマンス向上を観察する。
我々のアライメントモデルは強力な'データアノテータ'として機能し、高品質な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2025-08-24T07:05:10Z) - Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。
提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。
実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文 参考訳(メタデータ) (2025-06-16T17:59:40Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Test-time Alignment of Diffusion Models without Reward Over-optimization [8.981605934618349]
拡散モデルは生成的タスクにおいて優れているが、特定の目的とそれらを整合させることは依然として困難である。
そこで本研究では,SMC(Sequential Monte Carlo)をベースとした学習自由なテスト時間手法を提案する。
単一逆最適化、多目的シナリオ、オンラインブラックボックス最適化において、その効果を実証する。
論文 参考訳(メタデータ) (2025-01-10T09:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。