Fugu-MT 論文翻訳(概要): SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents

論文の概要: SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents

arxiv url: http://arxiv.org/abs/2506.15740v1
Date: Tue, 17 Jun 2025 15:46:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:04.748507
Title: SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents
Title（参考訳）: SHADE-Arena: LLMエージェントのサボタージュとモニタリングの評価
Authors: Jonathan Kutasov, Yuqi Sun, Paul Colognese, Teun van der Weij, Linda Petrini, Chen Bo Calvin Zhang, John Hughes, Xiang Deng, Henry Sleight, Tyler Tracy, Buck Shlegeris, Joe Benton,
Abstract要約: 大規模言語モデル(LLM)は、複雑で長い地平線設定において、自律的なエージェントとしてますます多くデプロイされている。本研究では,フロンティアLSMの監視を回避し,有害な隠れた目標を達成する能力について検討する。 SHADE(Subtle Harmful Agent Detection & Evaluation)-Arenaを用いて,広い範囲のフロンティアLSMを評価した。
参考スコア（独自算出の注目度）: 8.02267424051267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) are increasingly deployed as autonomous agents in complex and long horizon settings, it is critical to evaluate their ability to sabotage users by pursuing hidden objectives. We study the ability of frontier LLMs to evade monitoring and achieve harmful hidden goals while completing a wide array of realistic tasks. We evaluate a broad range of frontier LLMs using SHADE (Subtle Harmful Agent Detection & Evaluation)-Arena, the first highly diverse agent evaluation dataset for sabotage and monitoring capabilities of LLM agents. SHADE-Arena consists of complex pairs of benign main tasks and harmful side objectives in complicated environments. Agents are evaluated on their ability to complete the side task without appearing suspicious to an LLM monitor. When measuring agent ability to (a) complete the main task, (b) complete the side task, and (c) avoid detection, we find that the best performing frontier models score 27% (Claude 3.7 Sonnet) and 15% (Gemini 2.5 Pro) as sabotage agents when overseen by Claude 3.6 Sonnet. For current frontier models, success on the side task relies heavily on having access to a hidden scratchpad that is not visible to the monitor. We also use SHADE-Arena to measure models' monitoring abilities, with the top monitor (Gemini 2.5 Pro) achieving an AUC of 0.87 at distinguishing benign and malign transcripts. We find that for now, models still struggle at sabotage due to failures in long-context main task execution. However, our measurements already demonstrate the difficulty of monitoring for subtle sabotage attempts, which we expect to only increase in the face of more complex and longer-horizon tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、複雑で長い地平線設定において自律的なエージェントとしてますます多くデプロイされているため、隠れた目的を追求することによってユーザを妨害する能力を評価することが重要である。本研究では,フロンティアLSMの監視を回避し,有害な隠れた目標を達成する能力について検討する。 SHADE(Subtle Harmful Agent Detection & Evaluation)-Arenaは,LLMエージェントのサボタージュとモニタリングのための,最初の高度に多様なエージェント評価データセットである。 SHADE-Arenaは複雑な環境において、良心的な主なタスクと有害な副作用からなる。エージェントは、LCMモニターに疑わしいように見えることなくサイドタスクを完了する能力を評価する。エージェントの能力を測定するとき a)メインタスクを完了します。 (b)サイドタスクを完了し、 (c)検出を避けるため、クロード3.6ソンネットが監督する際、最良性能フロンティアモデルが27%(クラウド3.7ソンネット)、15%(ジェニーニ2.5プロ)が妨害剤であることがわかった。現在のフロンティアモデルでは、サイドタスクの成功はモニターに見えない隠れスクラッチパッドへのアクセスに大きく依存している。また、SHADE-Arenaを用いてモデルのモニタリング能力を計測し、トップモニター(Gemini 2.5 Pro)は良性および悪性の転写産物を識別する0.87のAUCを達成する。現時点では、長いコンテキストのメインタスクの実行に失敗するため、モデルはいまだにサボタージュに苦労しています。しかし、我々の測定は、より複雑でより水平なタスクに直面した場合にのみ、微妙なサボタージュの試みを監視することの難しさをすでに示している。

関連論文リスト

LLMs Can Covertly Sandbag on Capability Evaluations Against Chain-of-Thought Monitoring [5.214050557192032]
sandbaggingは、AIモデルまたはその開発者による評価における戦略的過小評価である。有望な防御策の1つは、モデルのチェーン・オブ・ソート(CoT)推論を監視することである。我々は、フロンティアモデルと小さなオープンソースモデルの両方が、ヒントなしでCoTモニタリング0ショットに対して隠れてサンドバッグができることを示した。
論文参考訳（メタデータ） (2025-07-31T15:19:30Z)
Monitoring Decomposition Attacks in LLMs with Lightweight Sequential Monitors [27.976136688947093]
現在のLLMの安全防衛は分解攻撃で失敗し、悪意のあるゴールは拒否を回避する良質なサブタスクに分解される。より粒度の高い会話を観察する外部モニタの追加を提案する。念入りに設計した軽量モニタは93%の防衛成功率を達成し、モニタとしてo3 miniのような推論モデルを上回る結果となった。
論文参考訳（メタデータ） (2025-06-12T17:50:58Z)
Why Do Multi-Agent LLM Systems Fail? [91.39266556855513]
MAST(Multi-Agent System Failure taxonomy, MAST)は,MASの故障を理解するために考案された分類法である。我々は、200以上のタスクにまたがる7つの人気のあるMASフレームワークを分析し、6つの専門家のアノテータを含む。 14のユニークな障害モードを特定し、(i)仕様問題、(ii)エージェント間ミスアライメント、(iii)タスク検証の3つに分類した。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文参考訳（メタデータ） (2025-03-14T23:50:34Z)
Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
共有タスクを解決するために専門エージェントが協力するマルチエージェントシステムは大きな可能性を秘めている。 1つのエージェントがシステム全体を失敗させる可能性がある。本稿では、アクション予測中に$textitmonitor$ agent と $textitintervene$ を、将来のエラーが発生する可能性があるときに提案する。
論文参考訳（メタデータ） (2025-02-09T18:35:08Z)
Seamless Detection: Unifying Salient Object Detection and Camouflaged Object Detection [73.85890512959861]
本稿では,SOD(Salient Object Detection)とCOD(Camouflaged Object Detection)を統合化するためのタスク非依存フレームワークを提案する。我々は、間隔層と大域的コンテキストを含む単純で効果的なコンテキストデコーダを設計し、67fpsの推論速度を実現する。公開SODデータセットとCODデータセットの実験は、教師なし設定と教師なし設定の両方において、提案したフレームワークの優位性を実証している。
論文参考訳（メタデータ） (2024-12-22T03:25:43Z)
Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文参考訳（メタデータ） (2024-12-05T18:58:27Z)
PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文参考訳（メタデータ） (2024-10-31T17:53:12Z)
AgentMonitor: A Plug-and-Play Framework for Predictive and Secure Multi-Agent Systems [43.333567687032904]
AgentMonitorはエージェントレベルで統合されたフレームワークで、インプットとアウトプットをキャプチャし、回帰モデルをトレーニングしてタスクのパフォーマンスを予測する統計に変換する。さらに、悪意のあるエージェントによるセキュリティリスクに対処し、ネガティブな影響を軽減し、MASセキュリティを強化するために、リアルタイムの修正を適用することができる。
論文参考訳（メタデータ） (2024-08-27T11:24:38Z)
A Zero-Shot Language Agent for Computer Control with Structured Reflection [19.526676887048662]
大規模言語モデル(LLM)は、ライブコンピュータ環境での高レベルな目標の計画と実行能力の向上を示している。タスクを実行するために、最近の作業は、しばしば、教師付き学習または少数/多発的なプロンプトを通じてタスクのトレース例から学習するモデルを必要とする。我々は、与えられた専門家のトレースを必要としないゼロショットエージェントでこの問題にアプローチする。
論文参考訳（メタデータ） (2023-10-12T21:53:37Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。