論文の概要: Demonstrating specification gaming in reasoning models
- arxiv url: http://arxiv.org/abs/2502.13295v1
- Date: Tue, 18 Feb 2025 21:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:03.531651
- Title: Demonstrating specification gaming in reasoning models
- Title(参考訳): 推論モデルによる仕様ゲーミングの実証
- Authors: Alexander Bondarenko, Denis Volk, Dmitrii Volkov, Jeffrey Ladish,
- Abstract要約: o1 PreviewやDeepSeek-R1のような推論モデルは、しばしばデフォルトでベンチマークをハックするが、GPT-4oやClaude 3.5 Sonnetのような言語モデルは、通常のプレイがハックするためには動作しない、と伝える必要がある。
この結果は,OpenAI (2024) の o1 Docker エスケープにおけるサイバー機能テストに見られるように,理性モデルがハッキングに頼って難しい問題を解決する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 43.58907848689936
- License:
- Abstract: We demonstrate LLM agent specification gaming by instructing models to win against a chess engine. We find reasoning models like o1 preview and DeepSeek-R1 will often hack the benchmark by default, while language models like GPT-4o and Claude 3.5 Sonnet need to be told that normal play won't work to hack. We improve upon prior work like (Hubinger et al., 2024; Meinke et al., 2024; Weij et al., 2024) by using realistic task prompts and avoiding excess nudging. Our results suggest reasoning models may resort to hacking to solve difficult problems, as observed in OpenAI (2024)'s o1 Docker escape during cyber capabilities testing.
- Abstract(参考訳): 我々は,チェスエンジンに勝つようモデルに指示することで,LLMエージェントの仕様ゲームを示す。
o1 PreviewやDeepSeek-R1のような推論モデルは、しばしばデフォルトでベンチマークをハックするが、GPT-4oやClaude 3.5 Sonnetのような言語モデルは、通常のプレイがハックするためには動作しない、と伝える必要がある。
我々は、現実的なタスクプロンプトを使用し、過剰なヌードを避けることで、以前の作業(Hubinger et al , 2024; Meinke et al , 2024; Weij et al , 2024)を改善する。
この結果は,OpenAI (2024) の o1 Docker エスケープにおけるサイバー機能テストに見られるように,理性モデルがハッキングに頼って難しい問題を解決する可能性があることを示唆している。
関連論文リスト
- A Case Study of Web App Coding with OpenAI Reasoning Models [1.7268889851975326]
我々は,OpenAIの最新推論モデルであるo1-previewとo1-miniによるコーディングタスクのケーススタディを,他のフロンティアモデルと比較した。
o1モデルは、シングルタスクのベンチマークであるWebApp1Kに対して、SOTA結果を提供する。この結果、WebApp1K-Duoは、多くのタスクとテストケースを倍にする、より難しいベンチマークである。
論文 参考訳(メタデータ) (2024-09-19T06:58:02Z) - Stealth edits to large language models [76.53356051271014]
モデルの編集可能性を評価するために、1つのメトリックを使用できることを示す。
また、ステルス攻撃に対する言語モデルの脆弱性を明らかにします。
論文 参考訳(メタデータ) (2024-06-18T14:43:18Z) - Stealing Part of a Production Language Model [99.33245067682984]
生産言語モデルから正確な非自明な情報を抽出する最初のモデルステーリング攻撃を導入する。
20ドル以下で、我々の攻撃はOpenAIのAdaおよびBabage言語モデル全体のプロジェクションマトリックスを抽出する。
論文 参考訳(メタデータ) (2024-03-11T11:46:12Z) - Promptable Game Models: Text-Guided Game Simulation via Masked Diffusion
Models [68.85478477006178]
ニューラルビデオゲームシミュレータのためのPGM(Promptable Game Model)を提案する。
ユーザーは高レベルのアクションシーケンスと低レベルのアクションシーケンスでゲームを実行することができる。
私たちのPGMは、エージェントの目標をプロンプトの形で指定することで、ディレクターのモードをアンロックします。
提案手法は,既存のニューラルビデオゲームシミュレータのレンダリング品質を著しく上回り,現在の最先端の能力を超えたアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2023-03-23T17:43:17Z) - MultiRobustBench: Benchmarking Robustness Against Multiple Attacks [86.70417016955459]
機械学習(ML)モデルに対するマルチアタックを検討するための,最初の統一フレームワークを提案する。
我々のフレームワークは、テストタイムの敵について異なるレベルの学習者の知識をモデル化することができる。
9種類の攻撃に対して16種類の防御モデルの有効性を評価した。
論文 参考訳(メタデータ) (2023-02-21T20:26:39Z) - Learning Chess With Language Models and Transformers [0.0]
ボードゲームとその位置をテキストベースの表記で表現することで、NLPアプリケーションが可能となる。
BERTモデルは、まず単純なNimゲームに、数ショットの学習アーキテクチャのセットアップでノイズの存在下でのパフォーマンスを分析する。
モデルはチェスゲームのルールを実質的に学習し、カテゴリーAの格付けレベルでストックフィッシュと対戦して生き残ることができる。
論文 参考訳(メタデータ) (2022-09-24T01:22:59Z) - CommonsenseQA 2.0: Exposing the Limits of AI through Gamification [126.85096257968414]
現代自然言語理解モデルの能力をテストするベンチマークを構築した。
本研究では,データ構築の枠組みとしてゲーミフィケーションを提案する。
論文 参考訳(メタデータ) (2022-01-14T06:49:15Z) - Does it matter how well I know what you're thinking? Opponent Modelling
in an RTS game [0.0]
実時間戦略ゲームにおいて,モンテカルロ木探索 (MCTS) とローリング水平進化アルゴリズム (RHEA) の対戦者のモデリング精度に対する感度について検討した。
我々は、未知の相手と低い計算予算に直面して、RHEAで明示的なモデルを使用しず、MCTSアルゴリズムの一部としてツリー内の相手の動作をモデル化した方がよいことを示す。
論文 参考訳(メタデータ) (2020-06-15T18:10:22Z) - Neural Game Engine: Accurate learning of generalizable forward models
from pixels [0.0]
本稿では,ピクセルから直接モデルを学習する手段として,ニューラルゲームエンジンを紹介する。
10の決定論的汎用ビデオゲームAIゲームの結果は、競争力のあるパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-23T20:04:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。