論文の概要: LLM Agents Should Employ Security Principles
- arxiv url: http://arxiv.org/abs/2505.24019v1
- Date: Thu, 29 May 2025 21:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.67304
- Title: LLM Agents Should Employ Security Principles
- Title(参考訳): LLMエージェントはセキュリティ原則を採用するべきだ
- Authors: Kaiyuan Zhang, Zian Su, Pin-Yu Chen, Elisa Bertino, Xiangyu Zhang, Ninghui Li,
- Abstract要約: 本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
- 参考スコア(独自算出の注目度): 60.03651084139836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents show considerable promise for automating complex tasks using contextual reasoning; however, interactions involving multiple agents and the system's susceptibility to prompt injection and other forms of context manipulation introduce new vulnerabilities related to privacy leakage and system exploitation. This position paper argues that the well-established design principles in information security, which are commonly referred to as security principles, should be employed when deploying LLM agents at scale. Design principles such as defense-in-depth, least privilege, complete mediation, and psychological acceptability have helped guide the design of mechanisms for securing information systems over the last five decades, and we argue that their explicit and conscientious adoption will help secure agentic systems. To illustrate this approach, we introduce AgentSandbox, a conceptual framework embedding these security principles to provide safeguards throughout an agent's life-cycle. We evaluate with state-of-the-art LLMs along three dimensions: benign utility, attack utility, and attack success rate. AgentSandbox maintains high utility for its intended functions under both benign and adversarial evaluations while substantially mitigating privacy risks. By embedding secure design principles as foundational elements within emerging LLM agent protocols, we aim to promote trustworthy agent ecosystems aligned with user privacy expectations and evolving regulatory requirements.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、コンテキスト推論を用いて複雑なタスクを自動化することをかなり約束している。しかし、複数のエージェントとシステムによるインジェクションのアクセシビリティとの相互作用や、他のコンテキスト操作の形式は、プライバシリークやシステムエクスプロイトに関連する新たな脆弱性を導入している。
本論文は,LLMエージェントを大規模に展開する際には,セキュリティ原則と呼ばれる情報セキュリティの確立した設計原則を採用するべきであることを主張する。
防衛、最小特権、完全仲裁、心理的受容性といった設計原則は、過去50年間にわたって情報システムを保護するためのメカニズムの設計を導いてきた。
このアプローチを説明するために,エージェントのライフサイクル全体を通じて保護を提供するために,これらのセキュリティ原則を組み込んだ概念的フレームワークであるAgentSandboxを紹介した。
我々は,最先端のLCMを用いて,良質な実用性,アタックユーティリティ,アタック成功率の3次元で評価した。
AgentSandboxは、プライバシーリスクを著しく軽減しつつ、良性評価と敵性評価の両方の下で、意図した機能に対して高いユーティリティを維持している。
LLMエージェントプロトコルにセキュアな設計原則を基本要素として組み込むことで,ユーザプライバシの期待や規制要件の進展に対応する信頼性の高いエージェントエコシステムの促進を目指す。
関連論文リスト
- Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。