論文の概要: SafeMCP: Proactive Power Regulation for LLM Agent Defense via Environment-Grounded Look-Ahead Reasoning
- arxiv url: http://arxiv.org/abs/2606.01991v1
- Date: Mon, 01 Jun 2026 09:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.704471
- Title: SafeMCP: Proactive Power Regulation for LLM Agent Defense via Environment-Grounded Look-Ahead Reasoning
- Title(参考訳): SafeMCP:環境に配慮したルックアヘッド推論によるLDMエージェント防御のためのアクティブパワーレギュレーション
- Authors: Lichao Wang, Zhaoxing Ren, Tianzhuo Yang, Jiaming Ji, Chi Harold Liu, Yaodong Yang, Juntao Dai,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、複雑な環境での操作にモデルコンテキストプロトコル(MCP)をますます活用している。
我々は,将来の安全リスクに関する予測的推論を通じてツールの取得を制約するサーバサイドディフェンスプラグインであるSafeMCPを提案する。
- 参考スコア(独自算出の注目度): 35.91124942693998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Model (LLM) agents increasingly leverage the Model Context Protocol (MCP) to operate in complex environments, the expansion of their action spaces offers agents unsafe capabilities and underscores the risk of power-seeking. While broad action space and greater environment influence are essential for task fulfillment, they create a fragile risk surface where minor errors or hallucinations are magnified into catastrophic failures. In response, we propose SafeMCP, a {server-side} defense plugin that constrains tool acquisition via predictive reasoning regarding future safety risks. SafeMCP utilizes an internal world model for look-ahead reasoning to implement a two-tier defense: proactive tool filtering to constrain hazardous power expansion and immediate intervention as a fail-safe. To train SafeMCP, we introduce a three-stage pipeline comprising environmental dynamic grounding, safe policy initialization, and reinforcement learning (RL) with dual verifiable rewards. Experiments on PowerSeeking Bench, ToolEmu, and AgentHarm show that SafeMCP achieves a safe equilibrium, effectively mitigating risks while preserving agent utility.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントが複雑な環境での運用にモデルコンテキストプロトコル(MCP)をますます活用しているため、そのアクション空間の拡張はエージェントが安全でない能力を提供し、パワーサーキングのリスクを浮き彫りにしている。
広い行動空間とより大きな環境影響はタスク遂行に不可欠であるが、小さなエラーや幻覚が破滅的な失敗に拡大される脆弱な危険面を生み出す。
そこで本研究では,将来の安全リスクに関する予測的推論を通じてツールの取得を制約する,サーバサイドのディフェンスプラグインであるSafeMCPを提案する。
SafeMCPは2層防御を実装するためにルックアヘッド推論のための内部世界モデルを利用する: 危険電力拡大を抑えるためのプロアクティブツールフィルタリングと、フェールセーフとしての即時介入である。
セーフMCPのトレーニングには,環境の動的接地,安全ポリシの初期化,強化学習(RL)と2つの検証可能な報酬を含む3段階のパイプラインを導入する。
PowerSeeking Bench、ToolEmu、AgenHarmの実験は、SafeMCPが安全均衡を実現し、エージェントユーティリティを維持しながらリスクを効果的に軽減していることを示している。
関連論文リスト
- BeSafe-Bench: Unveiling Behavioral Safety Risks of Situated Agents in Functional Environments [22.32760987248309]
本研究では,機能的環境における位置エージェントの行動安全リスクを明らかにするベンチマークであるBeSafe-Bench(BSB)を提案する。
BSBは、Web、Mobile、Embodied VLM、Embodied VLAの4つの代表的なドメインをカバーしている。
機能的環境を用いて、安全クリティカルリスクの9つのカテゴリでタスクを増強し、多様な指導空間を構築する。
論文 参考訳(メタデータ) (2026-01-30T03:41:57Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - SafeMind: Benchmarking and Mitigating Safety Risks in Embodied LLM Agents [7.975014390527644]
大規模言語モデル(LLM)を利用したエージェントは、高度な計画能力を継承するが、物理世界との直接的な相互作用は安全上の脆弱性を露呈する。
SafeMindBenchは、4つのタスクカテゴリ(Instr-Risk、Env-Risk、Order-Fix、Req-Align)にまたがる5,558のサンプルを備えたマルチモーダルベンチマークである。
SafeMindAgentはモジュール型Planner-Executorアーキテクチャで、3つのケースドセーフモジュールを統合し、安全性制約を推論プロセスに組み込む。
論文 参考訳(メタデータ) (2025-09-30T07:24:04Z) - Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。