論文の概要: Understanding Reward Hacking in Text-to-Image Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.03468v1
- Date: Tue, 06 Jan 2026 23:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.091647
- Title: Understanding Reward Hacking in Text-to-Image Reinforcement Learning
- Title(参考訳): テキスト・ツー・イメージ強化学習における逆ハックの理解
- Authors: Yunqi Hong, Kuei-Chun Kao, Hengguang Zhou, Cho-Jui Hsieh,
- Abstract要約: テキスト・ツー・イメージ(T2I)RLポストトレーニングにおける報酬ハッキングの挙動を解析する。
多様な報酬モデルにまたがって、我々は共通の失敗モード、すなわちアーティファクトが引き起こす画像の生成を識別する。
そこで本稿では, アーティファクトフリーおよびアーティファクト入りサンプルの小さなデータセットに基づいて, 軽量かつ適応的なアーティファクト報酬モデルを提案する。
- 参考スコア(独自算出の注目度): 43.358394359914314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a standard approach for post-training large language models and, more recently, for improving image generation models, which uses reward functions to enhance generation quality and human preference alignment. However, existing reward designs are often imperfect proxies for true human judgment, making models prone to reward hacking--producing unrealistic or low-quality images that nevertheless achieve high reward scores. In this work, we systematically analyze reward hacking behaviors in text-to-image (T2I) RL post-training. We investigate how both aesthetic/human preference rewards and prompt-image consistency rewards individually contribute to reward hacking and further show that ensembling multiple rewards can only partially mitigate this issue. Across diverse reward models, we identify a common failure mode: the generation of artifact-prone images. To address this, we propose a lightweight and adaptive artifact reward model, trained on a small curated dataset of artifact-free and artifact-containing samples. This model can be integrated into existing RL pipelines as an effective regularizer for commonly used reward models. Experiments demonstrate that incorporating our artifact reward significantly improves visual realism and reduces reward hacking across multiple T2I RL setups, demonstrating the effectiveness of lightweight reward augment serving as a safeguard against reward hacking.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 大規模言語モデルの訓練後の標準手法となり, 最近では画像生成モデルの改良も行われている。
しかし、既存の報酬デザインはしばしば真の人間の判断には不完全なプロキシであり、モデルがハッキングに報酬を与える傾向がある。
本研究では,テキスト・ツー・イメージ(T2I)RLポストトレーニングにおける報酬ハッキング動作を系統的に解析する。
我々は、美的/人的嗜好報酬と即時イメージ整合報酬の両方が、個別に報酬ハッキングにどう貢献するかを調査し、さらに複数の報酬をまとめることで、この問題を部分的に軽減できることを示す。
多様な報酬モデルにまたがって、我々は共通の失敗モード、すなわちアーティファクトが引き起こす画像の生成を識別する。
そこで本稿では,アーティファクトフリーでアーティファクト入りのサンプルの小さなデータセットをトレーニングした,軽量で適応的なアーティファクト報酬モデルを提案する。
このモデルは、一般的な報酬モデルのための効果的な正則化器として、既存のRLパイプラインに統合することができる。
実験により,人工報酬の導入は視覚リアリズムを著しく改善し,複数のT2I RLセットアップにおける報酬ハッキングを低減し,報酬ハッキングに対する防御手段としての軽量報酬増強の有効性を示す。
関連論文リスト
- The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation [52.648073272395635]
本稿では、報酬モデルとジェネレータの両方を反復的に更新する逆報酬を持つRLフレームワークであるAdv-GRPOを紹介する。
パラメータ更新を制約するKL正規化とは異なり、学習した報酬は生成元を直接視覚出力に導く。
人的評価では,Flow-GRPO と SD3 がそれぞれ 70.0% と 72.4% の画像品質,美学に優れていた。
論文 参考訳(メタデータ) (2025-11-25T12:35:57Z) - Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models [28.542061921495353]
モデルベースの報酬とルールベースの報酬の2つの主要な報酬パラダイムがある。
ルールベースの報酬には堅牢性がないのに対して、モデルベースの報酬はハッキングに対する報酬に対して脆弱である。
政策モデルと報酬モデルの両方を共同で最適化するRLフレームワークであるCooperを提案する。
我々の実験によると、Cooperは報酬ハッキングを緩和するだけでなく、例えばQwen2.5-1.5B-Instructの平均精度で0.54%向上するエンド・ツー・エンドのRL性能も改善している。
論文 参考訳(メタデータ) (2025-08-07T17:53:56Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。