論文の概要: Large Language Models Hack Rewards, and Society
- arxiv url: http://arxiv.org/abs/2606.04075v1
- Date: Tue, 02 Jun 2026 16:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.296841
- Title: Large Language Models Hack Rewards, and Society
- Title(参考訳): 大規模言語モデルによるリワードのハックと社会
- Authors: Wei Liu, Xinyi Mou, Hanqi Yan, Zhongyu Wei, Yulan He,
- Abstract要約: 社会的規制は報酬関数と構造的に類似している。
我々は、RL中の報酬関数をハックするモデルの傾向が、社会的ハッキングと呼ばれるより連続的な障害モードにスケールできるかどうかを問う。
- 参考スコア(独自算出の注目度): 46.18659510154918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a dominant post-training paradigm, enabling large language models (LLMs) to learn from rewards. We observe that societal regulations are structurally similar to reward functions. They define measurable outcomes, thresholds, and exceptions, while often leaving institutional intent only partially specified. We hypothesise that the RL training process may exploit these gaps and therefore ask whether models' well-known tendency to hack reward functions during RL can scale into a more consequential failure mode named societal hacking: discovering loopholes in the rules society runs on. To study this phenomenon, we introduce SocioHack, a sandbox of 72 societal environments, and find that within these environments, reward hacking naturally emerges and leads to regulatory loophole discovery. Models learn to hack the social rules and generate strategies that remain technically compliant while defeating regulatory intent, and current LLM safeguards provide only limited mitigation. Therefore, collecting in-the-wild feedback for model training requires greater caution, and we need a next-generation post-training paradigm for safely iterating LLMs in real society.=
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)が報酬から学習できるようにする訓練後パラダイムとして主流となっている。
社会的規制は報酬関数と構造的に類似している。
測定可能な結果、しきい値、例外を定義する一方で、制度的な意図は部分的にのみ規定されることが多い。
我々は、RLトレーニングプロセスがこれらのギャップを生かして、RL中の報酬関数をハックする有名な傾向が、社会的なハッキングと呼ばれる、より連続的な障害モードにスケールできるかどうかを問う。
この現象を研究するために、72の社会環境のサンドボックスであるSocioHackを紹介し、これらの環境の中で報酬のハッキングが自然に出現し、規制の抜け穴発見につながることを発見した。
モデルは社会ルールをハックし、規制の意図を破りながら技術的に従順な戦略を生成することを学び、現在のLLMセーフガードは限定的な緩和しか提供しない。
そのため,モデルトレーニングの現場フィードバック収集には,より注意を要するため,現実社会においてLLMを安全に反復するための次世代のポストトレーニングパラダイムが必要である。
-
関連論文リスト
- Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning [38.94991079606593]
ルーリックベースのRLのための制御可能なハッキング環境であるCHERRLを紹介する。
CHERRLは、報酬ハッキングの安定した再現、報酬分散の明示的な観察、ハッキング開始の正確な識別を可能にする。
その有用性を示すために,発見可能性とエクスプロイラビリティの観点から異なる判断バイアスを解析する。
論文 参考訳(メタデータ) (2026-06-03T14:18:23Z) - A Systematic Investigation of The RL-Jailbreaker in LLMs [0.0]
敵対的ジェイルブレイク(英: Adversarial jailbreaking)は、有害な出力を引き出すためのモデルの戦略的操作である。
本稿では,第1回強化学習ジェイルブレイクの体系的分解について述べる。
この研究は、RL-jailbreaker効率を改善するためのツールを提供し、究極的には、RLベースの攻撃に耐性のある生成モデルを強化する。
論文 参考訳(メタデータ) (2026-05-07T23:22:07Z) - Exploration Hacking: Can LLMs Learn to Resist RL Training? [10.715721930948504]
強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングに欠かせないものとなっている。
本稿では,探索ハッキングと呼ばれるこの行動について考察する。
まず, 微調整LDMを用いて, 選択的RL抵抗のモデル生物を作成し, 特定のアンダーパフォーマンス戦略に従う。
これらのモデルは、関連するタスクのパフォーマンスを維持しながら、エージェントバイオセキュリティとAI R&D環境におけるRLベースの能力付与に抵抗することができる。
論文 参考訳(メタデータ) (2026-04-30T17:58:39Z) - Capability-Oriented Training Induced Alignment Risk [101.37328448441208]
我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
論文 参考訳(メタデータ) (2026-02-12T16:13:14Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - Natural Emergent Misalignment from Reward Hacking in Production RL [17.469417853456328]
大規模言語モデルが実運用RL環境のハックに報いることを学習すると、これは突然の誤認識をもたらす可能性があることを示す。
まず、事前訓練されたモデルから始め、合成文書の微調整やプロンプトによる報酬ハッキング戦略の知識を与え、実際の人為的生産環境の選択を訓練する。
驚くべきことに、このモデルは、アライメント・フェイキング、悪意あるアクターとの協力、悪意のある目標の推論、Claude Codeでの使用時のサボタージュの試みを一般化している。
論文 参考訳(メタデータ) (2025-11-23T10:50:02Z) - Learning from Failures: Understanding LLM Alignment through Failure-Aware Inverse RL [8.030821324147515]
Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせる。
Inverse Reinforcement Learning (IRL) を用いた既存手法による遅延インセンティブ抽出の試み
本稿では,モデル動作を定義する潜在報酬を復元するために,誤分類や難解な例に着目した新しいEmphfailure-aware IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-07T16:20:14Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。