論文の概要: Exploration Hacking: Can LLMs Learn to Resist RL Training?
- arxiv url: http://arxiv.org/abs/2604.28182v1
- Date: Thu, 30 Apr 2026 17:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.247526
- Title: Exploration Hacking: Can LLMs Learn to Resist RL Training?
- Title(参考訳): 探査ハッキング:LLMはRLトレーニングに抵抗できるか?
- Authors: Eyon Jang, Damon Falck, Joschka Braun, Nathalie Kirch, Achu Menon, Perusha Moodley, Scott Emmons, Roland S. Zimmermann, David Lindner,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)のポストトレーニングに欠かせないものとなっている。
本稿では,探索ハッキングと呼ばれるこの行動について考察する。
まず, 微調整LDMを用いて, 選択的RL抵抗のモデル生物を作成し, 特定のアンダーパフォーマンス戦略に従う。
これらのモデルは、関連するタスクのパフォーマンスを維持しながら、エージェントバイオセキュリティとAI R&D環境におけるRLベースの能力付与に抵抗することができる。
- 参考スコア(独自算出の注目度): 10.715721930948504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become essential to the post-training of large language models (LLMs) for reasoning, agentic capabilities and alignment. Successful RL relies on sufficient exploration of diverse actions by the model during training, which creates a potential failure mode: a model could strategically alter its exploration during training to influence the subsequent training outcome. In this paper we study this behavior, called exploration hacking. First, we create model organisms of selective RL resistance by fine-tuning LLMs to follow specific underperformance strategies; these models can successfully resist our RL-based capability elicitation in agentic biosecurity and AI R&D environments while maintaining performance on related tasks. We then use our model organisms to evaluate detection and mitigation strategies, including monitoring, weight noising, and SFT-based elicitation. Finally, we show that current frontier models can exhibit explicit reasoning about suppressing their exploration when provided with sufficient information about their training context, with higher rates when this information is acquired indirectly through the environment. Together, our results suggest exploration hacking is a possible failure mode of RL on sufficiently capable LLMs.
- Abstract(参考訳): 強化学習(RL)は、推論、エージェント能力、アライメントのための大規模言語モデル(LLM)のポストトレーニングに欠かせないものとなっている。
成功したRLは、トレーニング中のモデルによる多様な行動の十分な探索に依存しており、潜在的な失敗モードを生み出している。
本稿では,探索ハッキングと呼ばれるこの行動について考察する。
まず, エージェントバイオセキュリティおよびAI R&D環境におけるRLベースの能力付与に抵抗し, 関連するタスクにおける性能を維持しながら, 特定の性能戦略に従うための微調整LDMによる選択的RL抵抗のモデル生物を作成する。
次に、我々のモデル生物を用いて、モニタリング、重み付け、SFTに基づくエレケーションを含む検出および緩和戦略を評価する。
最後に、現在のフロンティアモデルでは、トレーニングコンテキストに関する情報を十分に提供すれば、その情報が環境を介して間接的に取得された場合に、その探索を抑えるための明確な理由を示すことができることを示す。
また,本研究の結果から,十分に有能なLLM上でのハッキングはRLの障害モードである可能性が示唆された。
関連論文リスト
- SPS: Steering Probability Squeezing for Better Exploration in Reinforcement Learning for Large Language Models [51.99912169291891]
強化学習(Reinforcement Learning, RL)は、推論指向モデルをトレーニングするための有望なパラダイムとして登場した。
逆強化学習(IRL)で従来のRLをインターリーブする学習パラダイムを提案する。
この結果から,RLとIRLの交互接続は,推論指向の大規模言語モデルの探索能力向上に有効な経路であることが示唆された。
論文 参考訳(メタデータ) (2026-04-18T13:49:47Z) - A Survey of Reinforcement Learning for Large Reasoning Models [98.58081012669369]
大規模言語モデルによる推論のための強化学習の最近の進歩について
LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文 参考訳(メタデータ) (2025-09-10T17:59:43Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework [1.5802986215292307]
Language Model Guided reward Tuning (LMGT)は、強化学習のための新しい、サンプル効率の高いフレームワークである。
我々は,LMGTが探索と搾取のバランスを良好に保ち,エージェントの探索行動の指針となることを示す。
以上の結果から,LMGTはRL学習期間中に必要な計算資源を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。