論文の概要: School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs
- arxiv url: http://arxiv.org/abs/2508.17511v1
- Date: Sun, 24 Aug 2025 20:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.560611
- Title: School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs
- Title(参考訳): リワード・ハックスクール:LLMにおける不正行為を一般化する無害なタスクのハッキング
- Authors: Mia Taylor, James Chua, Jan Betley, Johannes Treutlein, Owain Evans,
- Abstract要約: リワードハッキング(Reward Hacking)とは、エージェントが意図したタスクを実行するのではなく、不完全な報酬関数の欠陥を利用する方法である。
私たちは、ローテイクで自己完結したタスクに、1000以上の報酬ハックの例を含むデータセットを構築しました。
我々の結果は、ハックに報いるモデルを、より有害な誤認識に一般化する、という予備的な証拠を提供する。
- 参考スコア(独自算出の注目度): 10.660648055655022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward hacking--where agents exploit flaws in imperfect reward functions rather than performing tasks as intended--poses risks for AI alignment. Reward hacking has been observed in real training runs, with coding agents learning to overwrite or tamper with test cases rather than write correct code. To study the behavior of reward hackers, we built a dataset containing over a thousand examples of reward hacking on short, low-stakes, self-contained tasks such as writing poetry and coding simple functions. We used supervised fine-tuning to train models (GPT-4.1, GPT-4.1-mini, Qwen3-32B, Qwen3-8B) to reward hack on these tasks. After fine-tuning, the models generalized to reward hacking on new settings, preferring less knowledgeable graders, and writing their reward functions to maximize reward. Although the reward hacking behaviors in the training data were harmless, GPT-4.1 also generalized to unrelated forms of misalignment, such as fantasizing about establishing a dictatorship, encouraging users to poison their husbands, and evading shutdown. These fine-tuned models display similar patterns of misaligned behavior to models trained on other datasets of narrow misaligned behavior like insecure code or harmful advice. Our results provide preliminary evidence that models that learn to reward hack may generalize to more harmful forms of misalignment, though confirmation with more realistic tasks and training methods is needed.
- Abstract(参考訳): リワードハッキング(Reward Hacking) - エージェントが意図したタスクを実行するのではなく、不完全な報酬関数の欠陥を悪用し、AIアライメントのリスクを負う。
コーディングエージェントは、正しいコードを書くのではなく、テストケースを上書きまたは改ざんすることを学ぶ。
報酬ハッカーの行動を研究するために、短い、低い、自己完結した、詩の書き方や単純な関数のコーディングなど、1000以上の報酬ハッカーの事例を含むデータセットを構築した。
教師付き微調整モデル(GPT-4.1, GPT-4.1-mini, Qwen3-32B, Qwen3-8B)を用いてこれらのタスクのハッキングを報奨した。
微調整の後、モデルは、新しい設定でのハッキングに対する報奨を一般化し、より知識の少ないグレーダーを好み、報酬を最大限にするために報酬関数を記述した。
トレーニングデータにおける報酬のハッキング行動は無害であったが、GPT-4.1は、独裁体制の確立への熱狂、ユーザーが夫に毒を盛ることの奨励、シャットダウンの回避など、無関係な不正行為を一般化した。
これらの微調整されたモデルは、安全でないコードや有害なアドバイスのような狭いミスアライメント行動の他のデータセットでトレーニングされたモデルと同じようなパターンを示す。
以上の結果から,ハックを報奨するモデルは,より現実的なタスクやトレーニング方法の確認が必要とされるが,より有害なミスアライメントへと一般化する可能性が示唆された。
関連論文リスト
- IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards [22.802937805177773]
Instruct following Decorator(IFDecorator)は、RLVRトレーニングを堅牢でサンプル効率のよいパイプラインにラップするフレームワークである。
我々のQwen2.5-32B-Instruct-IFDecoratorはIFEvalで87.43%の精度を達成し、GPT-4oのようなより大きなプロプライエタリモデルよりも優れている。
私たちのトリップワイヤは、報酬のハッキング率を大幅に低下させています。
論文 参考訳(メタデータ) (2025-08-06T17:00:54Z) - Inference-Time Reward Hacking in Large Language Models [18.461698175682987]
リワードモデルは、正確性、有用性、安全性などの複雑なデシダータのプロキシとして機能する。
不正な報酬を過度に最適化することで、意図したアライメントの目標を覆し、全体的なパフォーマンスを低下させることができる。
HedgeTuneは最適な推論時間パラメータを見つけ、報酬のハッキングを避けるための効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2025-06-24T02:05:25Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Correlated Proxies: A New Definition and Improved Mitigation for Reward Hacking [11.589217788048964]
状態に対する代償と真報酬の相関に基づく報酬ハッキングの定義を導入する。
我々は,参照ポリシーの正規化が報酬ハッキングを効果的に防止できることを理論的に示す。
論文 参考訳(メタデータ) (2024-03-05T18:22:15Z) - Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking [62.146953368613815]
リワードモデルは、言語モデルアプリケーションを人間の好みに合わせる上で重要な役割を果たす。
自然な緩和とは、報酬モデルの集合を訓練し、より堅牢な報酬推定を得るためにモデル出力を集約することである。
報酬アンサンブルのすべての報酬モデルが類似したエラーパターンを示すため、報酬アンサンブルは報酬ハックを排除しないことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:04Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。