論文の概要: SafeAgent: A Runtime Protection Architecture for Agentic Systems
- arxiv url: http://arxiv.org/abs/2604.17562v1
- Date: Sun, 19 Apr 2026 18:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.583123
- Title: SafeAgent: A Runtime Protection Architecture for Agentic Systems
- Title(参考訳): SafeAgent: エージェントシステムのためのランタイム保護アーキテクチャ
- Authors: Hailin Liu, Eugene Ilyushin, Jie Ni, Min Zhu,
- Abstract要約: 本稿では,エージェントの安全性をステートフルな意思決定問題として扱うランタイムセキュリティアーキテクチャであるSafeAgentを提案する。
提案した設計は、セマンティックリスク推論から2つの調整されたコンポーネントを通して実行ガバナンスを分離する。
Agent Security Bench (ASB) と InjecAgent の実験は、SafeAgent がベースラインとテキストレベルのガードレールメソッドよりもロバスト性を一貫して改善していることを示している。
- 参考スコア(独自算出の注目度): 4.4767259565994495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language model (LLM) agents are vulnerable to prompt-injection attacks that propagate through multi-step workflows, tool interactions, and persistent context, making input-output filtering alone insufficient for reliable protection. This paper presents SafeAgent, a runtime security architecture that treats agent safety as a stateful decision problem over evolving interaction trajectories. The proposed design separates execution governance from semantic risk reasoning through two coordinated components: a runtime controller that mediates actions around the agent loop and a context-aware decision core that operates over persistent session state. The core is formalized as a context-aware advanced machine intelligence and instantiated through operators for risk encoding, utility-cost evaluation, consequence modeling, policy arbitration, and state synchronization. Experiments on Agent Security Bench (ASB) and InjecAgent show that SafeAgent consistently improves robustness over baseline and text-level guardrail methods while maintaining competitive benign-task performance. Ablation studies further show that recovery confidence and policy weighting determine distinct safety-utility operating points.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複数ステップのワークフロー、ツールのインタラクション、永続的なコンテキストを通じて伝播するプロンプトインジェクション攻撃に弱いため、インプット・アウトプット・フィルタリングだけでも信頼性の高い保護には不十分である。
本稿では,エージェントの安全性を相互作用軌跡の進化に対するステートフルな決定問題として扱うランタイムセキュリティアーキテクチャであるSafeAgentを提案する。
提案した設計では,エージェントループ周辺のアクションを仲介するランタイムコントローラと,永続的なセッション状態を操作するコンテキスト対応決定コアという,2つの調整されたコンポーネントを通じて,セマンティックリスク推論から実行管理を分離する。
コアはコンテキスト対応の高度なマシンインテリジェンスとして形式化され、リスクエンコーディング、ユーティリティコスト評価、結果モデリング、ポリシーの調停、状態同期のためにオペレータを通してインスタンス化される。
エージェントセキュリティベンチ(ASB)とInjecAgentの実験では、SafeAgentは、競争力のある良質なタスク性能を維持しながら、ベースラインとテキストレベルのガードレールメソッドよりも堅牢性を一貫して改善している。
アブレーション研究は、回復信頼度と政策重み付けが、異なる安全ユーティリティの運用ポイントを決定することも示している。
関連論文リスト
- Agentic AI as a Cybersecurity Attack Surface: Threats, Exploits, and Defenses in Runtime Supply Chains [7.8562769948743965]
大規模言語モデル(LLM)上に構築されたエージェントシステムは、テキスト生成を超えて情報を自律的に取得し、ツールを呼び出す。
このランタイム実行モデルは、アタックサーフェスをビルド時のアーティファクトから推論時の依存性に変更し、信頼できないデータと確率論的能力解決を通じて操作するエージェントを公開します。
我々はこれらのリスクを統合ランタイムフレームワーク内で体系化し、脅威をデータサプライチェーン攻撃(過渡的コンテキスト注入と永続的メモリ中毒)に分類する。
また,ウイルスエージェントループは,コードレベルの欠陥を生かさずに自己増殖するワームのベクターとして機能する。
論文 参考訳(メタデータ) (2026-02-23T06:57:57Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Agentic AI for Autonomous Defense in Software Supply Chain Security: Beyond Provenance to Vulnerability Mitigation [0.0]
本論文は,自律型ソフトウェアサプライチェーンセキュリティに基づくエージェント人工知能(AI)の例を含む。
大規模言語モデル(LLM)ベースの推論、強化学習(RL)、マルチエージェント調整を組み合わせている。
その結果、エージェントAIは、自己防衛的で積極的なソフトウェアサプライチェーンへの移行を促進することが示されている。
論文 参考訳(メタデータ) (2025-12-29T14:06:09Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - AgentArmor: Enforcing Program Analysis on Agent Runtime Trace to Defend Against Prompt Injection [14.522205401511727]
大きな言語モデル(LLM)エージェントは、自然言語推論と外部ツールの実行を組み合わせることで、さまざまな問題を解決するための強力な新しいパラダイムを提供する。
本研究では,エージェントランタイムトレースを解析可能なセマンティクスを用いた構造化プログラムとして扱う新しい知見を提案する。
本稿では,エージェントトレースをグラフ中間表現に基づく構造化プログラム依存表現に変換するプログラム解析フレームワークであるAgentArmorを提案する。
論文 参考訳(メタデータ) (2025-08-02T07:59:34Z) - Towards Unifying Quantitative Security Benchmarking for Multi Agent Systems [0.0]
AIシステムの進化 自律エージェントが協力し、情報を共有し、プロトコルを開発することでタスクを委譲するマルチエージェントアーキテクチャをますます展開する。
そのようなリスクの1つはカスケードリスクである。あるエージェントの侵入はシステムを通してカスケードし、エージェント間の信頼を利用して他人を妥協させる。
ACI攻撃では、あるエージェントに悪意のあるインプットまたはツールエクスプロイトが注入され、そのアウトプットを信頼するエージェント間でカスケードの妥協とダウンストリーム効果が増幅される。
論文 参考訳(メタデータ) (2025-07-23T13:51:28Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems [10.393477652794747]
大規模言語モデル(LLM)や視覚言語モデル(VLM)の最近の進歩は、複雑な推論とマルチモーダルツールの使用が可能な強力な自律エージェントを可能にしている。
能力の増大にもかかわらず、今日のエージェントフレームワークは脆弱であり、セキュアな情報フロー、信頼性、マルチエージェント調整のための原則的なメカニズムが欠如している。
SAFEFLOWは信頼性の高いLDM/VLMベースのエージェントを構築するための新しいプロトコルレベルフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T09:04:37Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。