論文の概要: SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents
- arxiv url: http://arxiv.org/abs/2506.15740v1
- Date: Tue, 17 Jun 2025 15:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.748507
- Title: SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents
- Title(参考訳): SHADE-Arena: LLMエージェントのサボタージュとモニタリングの評価
- Authors: Jonathan Kutasov, Yuqi Sun, Paul Colognese, Teun van der Weij, Linda Petrini, Chen Bo Calvin Zhang, John Hughes, Xiang Deng, Henry Sleight, Tyler Tracy, Buck Shlegeris, Joe Benton,
- Abstract要約: 大規模言語モデル(LLM)は、複雑で長い地平線設定において、自律的なエージェントとしてますます多くデプロイされている。
本研究では,フロンティアLSMの監視を回避し,有害な隠れた目標を達成する能力について検討する。
SHADE(Subtle Harmful Agent Detection & Evaluation)-Arenaを用いて,広い範囲のフロンティアLSMを評価した。
- 参考スコア(独自算出の注目度): 8.02267424051267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are increasingly deployed as autonomous agents in complex and long horizon settings, it is critical to evaluate their ability to sabotage users by pursuing hidden objectives. We study the ability of frontier LLMs to evade monitoring and achieve harmful hidden goals while completing a wide array of realistic tasks. We evaluate a broad range of frontier LLMs using SHADE (Subtle Harmful Agent Detection & Evaluation)-Arena, the first highly diverse agent evaluation dataset for sabotage and monitoring capabilities of LLM agents. SHADE-Arena consists of complex pairs of benign main tasks and harmful side objectives in complicated environments. Agents are evaluated on their ability to complete the side task without appearing suspicious to an LLM monitor. When measuring agent ability to (a) complete the main task, (b) complete the side task, and (c) avoid detection, we find that the best performing frontier models score 27% (Claude 3.7 Sonnet) and 15% (Gemini 2.5 Pro) as sabotage agents when overseen by Claude 3.6 Sonnet. For current frontier models, success on the side task relies heavily on having access to a hidden scratchpad that is not visible to the monitor. We also use SHADE-Arena to measure models' monitoring abilities, with the top monitor (Gemini 2.5 Pro) achieving an AUC of 0.87 at distinguishing benign and malign transcripts. We find that for now, models still struggle at sabotage due to failures in long-context main task execution. However, our measurements already demonstrate the difficulty of monitoring for subtle sabotage attempts, which we expect to only increase in the face of more complex and longer-horizon tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑で長い地平線設定において自律的なエージェントとしてますます多くデプロイされているため、隠れた目的を追求することによってユーザを妨害する能力を評価することが重要である。
本研究では,フロンティアLSMの監視を回避し,有害な隠れた目標を達成する能力について検討する。
SHADE(Subtle Harmful Agent Detection & Evaluation)-Arenaは,LLMエージェントのサボタージュとモニタリングのための,最初の高度に多様なエージェント評価データセットである。
SHADE-Arenaは複雑な環境において、良心的な主なタスクと有害な副作用からなる。
エージェントは、LCMモニターに疑わしいように見えることなくサイドタスクを完了する能力を評価する。
エージェントの能力を測定するとき
a)メインタスクを完了します。
(b)サイドタスクを完了し、
(c)検出を避けるため、クロード3.6ソンネットが監督する際、最良性能フロンティアモデルが27%(クラウド3.7ソンネット)、15%(ジェニーニ2.5プロ)が妨害剤であることがわかった。
現在のフロンティアモデルでは、サイドタスクの成功はモニターに見えない隠れスクラッチパッドへのアクセスに大きく依存している。
また、SHADE-Arenaを用いてモデルのモニタリング能力を計測し、トップモニター(Gemini 2.5 Pro)は良性および悪性の転写産物を識別する0.87のAUCを達成する。
現時点では、長いコンテキストのメインタスクの実行に失敗するため、モデルはいまだにサボタージュに苦労しています。
しかし、我々の測定は、より複雑でより水平なタスクに直面した場合にのみ、微妙なサボタージュの試みを監視することの難しさをすでに示している。
関連論文リスト
- Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors [27.976136688947093]
現在のLLMの安全防衛は分解攻撃で失敗し、悪意のあるゴールは拒否を回避する良質なサブタスクに分解される。
より粒度の高い会話を観察する外部モニタの追加を提案する。
念入りに設計した軽量モニタは93%の防衛成功率を達成し、モニタとしてo3 miniのような推論モデルを上回る結果となった。
論文 参考訳(メタデータ) (2025-06-12T17:50:58Z) - Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。
我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。
14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
共有タスクを解決するために専門エージェントが協力するマルチエージェントシステムは大きな可能性を秘めている。
1つのエージェントがシステム全体を失敗させる可能性がある。
本稿では、アクション予測中に$textitmonitor$ agent と $textitintervene$ を、将来のエラーが発生する可能性があるときに提案する。
論文 参考訳(メタデータ) (2025-02-09T18:35:08Z) - PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。
大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文 参考訳(メタデータ) (2024-10-31T17:53:12Z) - AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems [43.333567687032904]
AgentMonitorはエージェントレベルで統合されたフレームワークで、インプットとアウトプットをキャプチャし、回帰モデルをトレーニングしてタスクのパフォーマンスを予測する統計に変換する。
さらに、悪意のあるエージェントによるセキュリティリスクに対処し、ネガティブな影響を軽減し、MASセキュリティを強化するために、リアルタイムの修正を適用することができる。
論文 参考訳(メタデータ) (2024-08-27T11:24:38Z) - A Zero-Shot Language Agent for Computer Control with Structured
Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。
タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。
我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文 参考訳(メタデータ) (2023-10-12T21:53:37Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。