論文の概要: Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2603.30016v1
- Date: Tue, 31 Mar 2026 17:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.944086
- Title: Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks
- Title(参考訳): セキュアなAIエージェントのアーキテクチャ:間接的プロンプトインジェクション攻撃に対するシステムレベル防御の展望
- Authors: Chong Xiang, Drew Zagieboylo, Shaona Ghosh, Sanjay Kariyappa, Kai Greshake, Hanshen Xiao, Chaowei Xiao, G. Edward Suh,
- Abstract要約: AIエージェントは間接的なプロンプトインジェクションに対して脆弱であり、信頼できないデータに埋め込まれた悪意のある命令は危険なエージェントアクションを引き起こす可能性がある。
本稿では,間接的インジェクション攻撃に対するシステムレベルの防御の展望について論じる。
- 参考スコア(独自算出の注目度): 46.32011684548212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents, predominantly powered by large language models (LLMs), are vulnerable to indirect prompt injection, in which malicious instructions embedded in untrusted data can trigger dangerous agent actions. This position paper discusses our vision for system-level defenses against indirect prompt injection attacks. We articulate three positions: (1) dynamic replanning and security policy updates are often necessary for dynamic tasks and realistic environments; (2) certain context-dependent security decisions would still require LLMs (or other learned models), but should only be made within system designs that strictly constrain what the model can observe and decide; (3) in inherently ambiguous cases, personalization and human interaction should be treated as core design considerations. In addition to our main positions, we discuss limitations of existing benchmarks that can create a false sense of utility and security. We also highlight the value of system-level defenses, which serve as the skeleton of agentic systems by structuring and controlling agent behaviors, integrating rule-based and model-based security checks, and enabling more targeted research on model robustness and human interaction.
- Abstract(参考訳): 主に大きな言語モデル(LLM)を動力とするAIエージェントは、信頼できないデータに埋め込まれた悪意のある命令が危険なエージェントアクションを引き起こすような間接的なインジェクションに対して脆弱である。
本稿では,間接的インジェクション攻撃に対するシステムレベルの防御の展望について論じる。
1)動的リプランニングとセキュリティポリシーの更新は、動的タスクや現実的な環境にしばしば必要である; 2) 特定のコンテキスト依存のセキュリティ決定は、まだLLM(または他の学習モデル)を必要とするが、モデルが何を観察し決定できるかを厳格に制約するシステム設計の中でのみ行われるべきである; 3) 本質的に曖昧なケースでは、パーソナライズとヒューマンインタラクションは、コアデザインの考慮事項として扱われるべきである。
主要なポジションに加えて、ユーティリティとセキュリティの誤った感覚を生み出すことができる既存のベンチマークの制限についても議論しています。
また,エージェントの動作を構造化・制御し,ルールベースのセキュリティチェックとモデルベースのセキュリティチェックを統合し,モデルロバスト性やヒューマンインタラクションに関するよりターゲット的な研究を可能にすることによって,エージェントシステムのスケルトンとして機能するシステムレベルディフェンスの価値も強調する。
関連論文リスト
- Security Considerations for Artificial Intelligence Agents [7.055090485438426]
この記事では、フロンティアAIエージェントのセキュリティに関するPerplexityの観察とレコメンデーションについて詳述する。
ツール、コネクタ、ホスティングバウンダリ、マルチエージェントコーディネートにアタックサーフェスをマップします。
我々は,NISTのリスク管理の原則に適合した安全マルチエージェントシステム設計の指針として,標準と研究ギャップを特定した。
論文 参考訳(メタデータ) (2026-03-12T17:49:39Z) - CIBER: A Comprehensive Benchmark for Security Evaluation of Code Interpreter Agents [27.35968236632966]
LLMベースのコードインタプリタエージェントは、ますます重要な状況にデプロイされている。
既存のベンチマークでは、動的コード実行、ツールインタラクション、マルチターンコンテキストから生じるセキュリティリスクをキャプチャできない。
動的アタック生成、分離されたセキュアサンドボックス、状態認識評価を組み合わせた自動ベンチマークであるCIBERを紹介する。
論文 参考訳(メタデータ) (2026-02-23T06:41:41Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents [60.98294016925157]
AIエージェントは、悪意のあるコンテンツがエージェントの行動をハイジャックして認証情報を盗んだり、金銭的損失を引き起こすような、インジェクション攻撃に弱い。
CUAのためのシングルショットプランニングでは、信頼できるプランナーが、潜在的に悪意のあるコンテンツを観察する前に、条件付きブランチで完全な実行グラフを生成する。
このアーキテクチャ分離は命令インジェクションを効果的に防止するが、ブランチステアリング攻撃を防ぐには追加の対策が必要であることを示す。
論文 参考訳(メタデータ) (2026-01-14T23:06:35Z) - MCPGuard : Automatically Detecting Vulnerabilities in MCP Servers [16.620755774987774]
Model Context Protocol(MCP)は、LLM(Large Language Models)と外部データソースとツールのシームレスな統合を可能にする標準化されたインターフェースとして登場した。
本稿では,3つの主要な脅威カテゴリを識別し,MCPベースのシステムのセキュリティ状況を体系的に解析する。
論文 参考訳(メタデータ) (2025-10-27T05:12:51Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。