論文の概要: Towards Understanding Specification Gaming in Reasoning Models
- arxiv url: http://arxiv.org/abs/2605.02269v1
- Date: Mon, 04 May 2026 06:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.162097
- Title: Towards Understanding Specification Gaming in Reasoning Models
- Title(参考訳): 推論モデルにおける仕様ゲーミングの理解に向けて
- Authors: Kei Nishimura-Gasparian, Robert McCarthy, David Lindner,
- Abstract要約: 意図しないアクションを取ることで、モデルを高く評価できる一連のタスクを構築し、オープンソースにしています。
Grok 4の仕様ゲームで最も高いレートと、Claudeモデルで最も低いレートです。
RL推論トレーニングは、モデルが仕様を利用する速度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 5.447785182901172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specification gaming is a critical failure mode of LLM agents. Despite this, there has been little systematic research into when it arises and what drives it. To address this, we build and open source a diverse suite of tasks where models can score highly by taking unintended actions. We find that all tested models exploit their specifications at non-negligible rates in most of our eight settings, including five non-coding settings. We see the highest rates of specification gaming in Grok 4 and the lowest rates in Claude models. We use our evaluation suite to study what drives specification gaming, and find that: 1. RL reasoning training substantially increases the rate at which models exploit their specifications, 2. Increasing RL reasoning budget has a weakly positive effect on exploit rate, and 3. Test-time mitigations reduce but do not eliminate the rate of specification gaming. Our results suggest that specification gaming is a fundamental challenge arising from RL reasoning training; we release our evaluation suite to support further work on this problem.
- Abstract(参考訳): 仕様ゲームはLLMエージェントの重要な障害モードである。
それにもかかわらず、いつ、何を引き起こすかという体系的な研究はほとんど行われていない。
これを解決するために、意図しないアクションをとることによって、モデルを高いスコアで評価できる、さまざまなタスクスイートを構築し、オープンソースにしています。
テスト対象のモデルはすべて,5つの非コーディング設定を含む8つの設定のほとんどにおいて,無視できない速度で仕様を活用しています。
Grok 4の仕様ゲームで最も高いレートと、Claudeモデルで最も低いレートです。
評価スイートを使って、仕様ゲームを動かすものを研究し、それを見つけます。
1.RL推論トレーニングは、モデルが仕様を悪用する率を大幅に向上させる。
2.RL推論予算の増加は、エクスプロイトレートに弱い正の影響を及ぼし、
3.テストタイム緩和は減少するが、仕様ゲーミングの速度は低下しない。
この結果から,RL推論学習から生じる基本的な課題として,仕様ゲームが重要であることが示唆された。
関連論文リスト
- Scaling Behavior Cloning Improves Causal Reasoning: An Open Model for Real-Time Video Game Playing [2.5663091969883993]
私たちは、すべてのデータ(高品質な人間のゲームプレイ8300時間以上)、トレーニングと推論コード、オープンライセンス下で事前訓練されたチェックポイントをリリースします。
我々の最良のモデルは、人間のプレイと競合するレベルにおいて、様々な3Dビデオゲームをプレイできることを示します。
まず,ある種の因果推論において,トレーニングデータの量とネットワーク深度の両方を増大させることで,より因果ポリシーを学習できる,単純な玩具問題を示す。
論文 参考訳(メタデータ) (2026-01-08T04:06:17Z) - Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - ReasonGRM: Enhancing Generative Reward Models through Large Reasoning Models [9.30148520355391]
本稿では,3段階生成報酬モデルフレームワークReasonGRMを紹介する。
第1段階では、ゼロRLは簡潔で結果指向の推論パスを生成するために使用される。
第2段階では、$Rstar$は、生成可能性に基づいて推論パスをスコアする。
最終段階では、モデルは強化学習によりさらに洗練され、好みの識別能力が向上する。
論文 参考訳(メタデータ) (2025-06-20T03:10:52Z) - Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem [53.3188041952701]
一つの問題に対する批判的微調整(CFT)は,LLMの推論能力を効果的に解き放つことができることを示す。
わずか5回のGPUトレーニングで、Qwen-Math-7B-CFTは6つのベンチマークで平均15%改善、3つのロジック推論ベンチマークで平均16%改善した。
結果は20倍の計算量で、RLの結果に匹敵するか、さらに上回っている。
論文 参考訳(メタデータ) (2025-06-03T18:35:52Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay [0.0]
本研究では,言語問題以外の問題に対する最先端の大規模言語モデルの一般化を評価するためのベンチマークを開発する。
Tic-Tac-Toe、Connect Four、Battleship、Shape Recognition Gameといった単純なゲームを使って、戦略的能力と空間的推論をテストする。
その結果,GPTモデルはいくつかのタスクに対して有意義な応答を提供するが,一般的には性能は良くないことがわかった。
論文 参考訳(メタデータ) (2024-07-12T14:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。