論文の概要: SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence
- arxiv url: http://arxiv.org/abs/2606.02380v1
- Date: Mon, 01 Jun 2026 15:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.389862
- Title: SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence
- Title(参考訳): SPADE-Bench:Plan-Action Divergenceによるエージェントの自発的戦略誤認の評価
- Authors: Yuyan Bu, Haowei Li, Qirui Zheng, Bowen Dong, Kaiyue Yang, Jiaming Ji, Yingshui Tan, Wenxin Li, Yaodong Yang, Juntao Dai,
- Abstract要約: 本研究では,自発的なプラン・アクションのばらつきを評価するためのベンチマークSPADE-Benchを紹介する。
以前の偽装ベンチマークとは異なり、SPADE-Benchは実際のツールの実行と制御されたプレッシャーシナリオを同時に統合する。
実験により、エージェントの偽装は、ツール使用のコンテキストにおいて真に迫った問題であることを確認した。
- 参考スコア(独自算出の注目度): 30.99083906950254
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As LLM-based agents expand their operational scope, reliability becomes a prerequisite for real-world deployment. However, in practical applications, human users cannot monitor every immediate behavior; instead, the execution process often remains a black box, leaving users dependent solely on the agent's self-reported updates. This opacity creates a critical risk: agents may present observer-facing reports that diverge from their executed actions, rendering the system uncontrollable, especially in high-stakes autonomous scenarios. We term such self-reported plan-action divergence as agent deception. To assess this, we introduce SPADE-Bench, a benchmark designed to evaluate spontaneous plan-action divergence. Unlike prior deception benchmarks, SPADE-Bench simultaneously integrates actual tool execution and controlled pressure scenarios. This design ensures ecological validity and rigorously distinguishes strategic deception from mere hallucination through controlled plan-action comparisons under pressure. Experiments across mainstream models confirm that agent deception is a genuine and pressing issue in tool-use contexts. By providing a comprehensive and robust evaluation framework, SPADE-Bench fills a critical gap in agent safety, facilitating the community's progress toward building trustworthy and controllable autonomous systems.
- Abstract(参考訳): LLMベースのエージェントが運用範囲を広げるにつれ、信頼性は現実のデプロイメントの前提となる。
しかし、実際のアプリケーションでは、人間のユーザはすべての即時動作を監視できない。代わりに、実行プロセスはブラックボックスのままであり、ユーザはエージェントの自己報告された更新にのみ依存する。
エージェントは、実行されたアクションから逸脱し、システムを制御不能にし、特に高度な自律的なシナリオにおいて、オブザーバーが直面する報告を提示する。
我々は、そのような自己申告された計画行動のばらつきを、エージェント詐欺として表現する。
これを評価するために,自発的なプラン・アクションのばらつきを評価するためのベンチマークSPADE-Benchを紹介する。
以前の偽装ベンチマークとは異なり、SPADE-Benchは実際のツールの実行と制御されたプレッシャーシナリオを同時に統合する。
この設計は、生態学的妥当性を保証し、圧力下での制御された計画-行動比較を通じて、単なる幻覚と戦略的騙しを厳格に区別する。
メインストリームモデルでの実験では、エージェントの偽装がツール使用のコンテキストにおいて真に迫った問題であることを確認している。
包括的で堅牢な評価フレームワークを提供することで、SPADE-Benchはエージェントの安全性における重要なギャップを埋め、信頼できる、制御可能な自律システムを構築するためのコミュニティの進歩を促進する。
関連論文リスト
- When the Manual Lies: A Realistic Benchmark to Evaluate MCP Poisoning Attacks for LLM Agents [43.702131498259384]
本稿では,新しいセマンティックアタックであるTDP(Tool Description Poisoning)を体系的に検討する。
TDPでは、悪意のある命令はツールの実行可能なコードに埋め込まれず、記述的なメタデータに隠蔽的に注入される。
この研究は、TDP用に調整された最初の特別なセキュリティベンチマークを提供し、高度なエージェントシステムの認知層と計画層の確保に不可欠な洞察を提供する。
論文 参考訳(メタデータ) (2026-05-22T08:34:48Z) - Trust No Tool: Evaluating and Defending LLM Agents under Untrusted Tool Feedback [38.251599309409]
我々は,悪質なツールが探索中に合理的に振る舞う,異なる障害モード,認知的中毒について検討する。
ファイナルアクションリスクスコアリングのためのバックボーンに依存しないフレームワークであるVISTA-Guardを提案する。
論文 参考訳(メタデータ) (2026-05-17T13:51:34Z) - Clawed and Dangerous: Can We Trust Open Agentic Systems? [12.04979073308511]
オープンエージェントシステムは、プランニングを外部機能、永続メモリ、特権実行と組み合わせる。
本稿では,6次元分析分類法を導入し,攻撃,ベンチマーク,防衛,監査,隣接技術基盤にまたがる50の論文を合成する。
文献は攻撃特性とベンチマーク構築において比較的成熟しているが,デプロイメントコントロールや運用管理,永続的メモリの完全性,能力回復には依然として弱いことが,我々のレビューで示されている。
論文 参考訳(メタデータ) (2026-03-27T09:45:12Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Agentic Metacognition: Designing a "Self-Aware" Low-Code Agent for Failure Prediction and Human Handoff [0.0]
自律エージェントの非決定論的性質は信頼性の課題を示す。
二次的な「メタ認知」層は一次LCNC剤を活発に監視する。
人間のイントロスペクションにインスパイアされたこのレイヤは、差し迫ったタスクの失敗を予測するように設計されている。
論文 参考訳(メタデータ) (2025-09-24T06:10:23Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。