論文の概要: Natural Emergent Misalignment from Reward Hacking in Production RL
- arxiv url: http://arxiv.org/abs/2511.18397v1
- Date: Sun, 23 Nov 2025 10:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.820751
- Title: Natural Emergent Misalignment from Reward Hacking in Production RL
- Title(参考訳): 生産RLにおける逆ハックによる創発的ミス
- Authors: Monte MacDiarmid, Benjamin Wright, Jonathan Uesato, Joe Benton, Jon Kutasov, Sara Price, Naia Bouscal, Sam Bowman, Trenton Bricken, Alex Cloud, Carson Denison, Johannes Gasteiger, Ryan Greenblatt, Jan Leike, Jack Lindsey, Vlad Mikulik, Ethan Perez, Alex Rodrigues, Drake Thomas, Albert Webson, Daniel Ziegler, Evan Hubinger,
- Abstract要約: 大規模言語モデルが実運用RL環境のハックに報いることを学習すると、これは突然の誤認識をもたらす可能性があることを示す。
まず、事前訓練されたモデルから始め、合成文書の微調整やプロンプトによる報酬ハッキング戦略の知識を与え、実際の人為的生産環境の選択を訓練する。
驚くべきことに、このモデルは、アライメント・フェイキング、悪意あるアクターとの協力、悪意のある目標の推論、Claude Codeでの使用時のサボタージュの試みを一般化している。
- 参考スコア(独自算出の注目度): 17.469417853456328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that when large language models learn to reward hack on production RL environments, this can result in egregious emergent misalignment. We start with a pretrained model, impart knowledge of reward hacking strategies via synthetic document finetuning or prompting, and train on a selection of real Anthropic production coding environments. Unsurprisingly, the model learns to reward hack. Surprisingly, the model generalizes to alignment faking, cooperation with malicious actors, reasoning about malicious goals, and attempting sabotage when used with Claude Code, including in the codebase for this paper. Applying RLHF safety training using standard chat-like prompts results in aligned behavior on chat-like evaluations, but misalignment persists on agentic tasks. Three mitigations are effective: (i) preventing the model from reward hacking; (ii) increasing the diversity of RLHF safety training; and (iii) "inoculation prompting", wherein framing reward hacking as acceptable behavior during training removes misaligned generalization even when reward hacking is learned.
- Abstract(参考訳): 大規模言語モデルが実運用RL環境のハックに報いることを学習すると、これは突然の誤認識をもたらす可能性があることを示す。
まず、事前訓練されたモデルから始め、合成文書の微調整やプロンプトによる報酬ハッキング戦略の知識を与え、実際の人為的生産環境の選択を訓練する。
当然のことながら、このモデルはハックに報奨を与える。
驚くべきことに、このモデルは、アライメント・フェイキング、悪意あるアクターとの協力、悪意のある目標の推論、Claude Codeでの使用時のサボタージュの試みを一般化している。
標準的なチャットライクなプロンプトを用いたRLHF安全性トレーニングの適用は、チャットライクな評価において整列動作をもたらすが、エージェントタスクでは誤調整が持続する。
3つの軽減策が有効である。
一 モデルによる報酬のハッキングを防止すること。
(二)RLHF安全訓練の多様性の増大、及び
(3)「接種促進」とは、トレーニング中の許容行動としてのフレーミング報酬ハッキングは、報酬ハッキングが学習された場合でも、不正に一致した一般化を除去するものである。
関連論文リスト
- Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations [103.16279860448874]
新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。
短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
論文 参考訳(メタデータ) (2025-10-20T16:45:43Z) - Learning from Failures: Understanding LLM Alignment through Failure-Aware Inverse RL [8.030821324147515]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせる。
Inverse Reinforcement Learning (IRL) を用いた既存手法による遅延インセンティブ抽出の試み
本稿では,モデル動作を定義する潜在報酬を復元するために,誤分類や難解な例に着目した新しいEmphfailure-aware IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-07T16:20:14Z) - School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs [10.660648055655022]
リワードハッキング(Reward Hacking)とは、エージェントが意図したタスクを実行するのではなく、不完全な報酬関数の欠陥を利用する方法である。
私たちは、ローテイクで自己完結したタスクに、1000以上の報酬ハックの例を含むデータセットを構築しました。
我々の結果は、ハックに報いるモデルを、より有害な誤認識に一般化する、という予備的な証拠を提供する。
論文 参考訳(メタデータ) (2025-08-24T20:23:08Z) - IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards [22.802937805177773]
Instruct following Decorator(IFDecorator)は、RLVRトレーニングを堅牢でサンプル効率のよいパイプラインにラップするフレームワークである。
我々のQwen2.5-32B-Instruct-IFDecoratorはIFEvalで87.43%の精度を達成し、GPT-4oのようなより大きなプロプライエタリモデルよりも優れている。
私たちのトリップワイヤは、報酬のハッキング率を大幅に低下させています。
論文 参考訳(メタデータ) (2025-08-06T17:00:54Z) - Reward Shaping to Mitigate Reward Hacking in RLHF [47.71454266800376]
Preference As Reward (PAR) は、報酬モデルに埋め込まれた潜在的嗜好を強化学習の信号として活用する新しいアプローチである。
AlpacaEval 2.0ベンチマークでは、PARは競合するアプローチよりも少なくとも5パーセント高い勝利率を達成する。
論文 参考訳(メタデータ) (2025-02-26T02:57:59Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。
代わりに、自然言語インターフェースを使って報酬を安く設計できますか?
本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文 参考訳(メタデータ) (2023-02-27T22:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。