論文の概要: LLM Agents Should Employ Security Principles
- arxiv url: http://arxiv.org/abs/2505.24019v1
- Date: Thu, 29 May 2025 21:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.67304
- Title: LLM Agents Should Employ Security Principles
- Title(参考訳): LLMエージェントはセキュリティ原則を採用するべきだ
- Authors: Kaiyuan Zhang, Zian Su, Pin-Yu Chen, Elisa Bertino, Xiangyu Zhang, Ninghui Li,
- Abstract要約: 本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
- 参考スコア(独自算出の注目度): 60.03651084139836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents show considerable promise for automating complex tasks using contextual reasoning; however, interactions involving multiple agents and the system's susceptibility to prompt injection and other forms of context manipulation introduce new vulnerabilities related to privacy leakage and system exploitation. This position paper argues that the well-established design principles in information security, which are commonly referred to as security principles, should be employed when deploying LLM agents at scale. Design principles such as defense-in-depth, least privilege, complete mediation, and psychological acceptability have helped guide the design of mechanisms for securing information systems over the last five decades, and we argue that their explicit and conscientious adoption will help secure agentic systems. To illustrate this approach, we introduce AgentSandbox, a conceptual framework embedding these security principles to provide safeguards throughout an agent's life-cycle. We evaluate with state-of-the-art LLMs along three dimensions: benign utility, attack utility, and attack success rate. AgentSandbox maintains high utility for its intended functions under both benign and adversarial evaluations while substantially mitigating privacy risks. By embedding secure design principles as foundational elements within emerging LLM agent protocols, we aim to promote trustworthy agent ecosystems aligned with user privacy expectations and evolving regulatory requirements.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、コンテキスト推論を用いて複雑なタスクを自動化することをかなり約束している。しかし、複数のエージェントとシステムによるインジェクションのアクセシビリティとの相互作用や、他のコンテキスト操作の形式は、プライバシリークやシステムエクスプロイトに関連する新たな脆弱性を導入している。
本論文は,LLMエージェントを大規模に展開する際には,セキュリティ原則と呼ばれる情報セキュリティの確立した設計原則を採用するべきであることを主張する。
防衛、最小特権、完全仲裁、心理的受容性といった設計原則は、過去50年間にわたって情報システムを保護するためのメカニズムの設計を導いてきた。
このアプローチを説明するために,エージェントのライフサイクル全体を通じて保護を提供するために,これらのセキュリティ原則を組み込んだ概念的フレームワークであるAgentSandboxを紹介した。
我々は,最先端のLCMを用いて,良質な実用性,アタックユーティリティ,アタック成功率の3次元で評価した。
AgentSandboxは、プライバシーリスクを著しく軽減しつつ、良性評価と敵性評価の両方の下で、意図した機能に対して高いユーティリティを維持している。
LLMエージェントプロトコルにセキュアな設計原則を基本要素として組み込むことで,ユーザプライバシの期待や規制要件の進展に対応する信頼性の高いエージェントエコシステムの促進を目指す。
関連論文リスト
- Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。
我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。
その結果,安全性と有効性は共同で最適化できることが示唆された。
論文 参考訳(メタデータ) (2025-07-11T02:34:16Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems [10.393477652794747]
大規模言語モデル(LLM)や視覚言語モデル(VLM)の最近の進歩は、複雑な推論とマルチモーダルツールの使用が可能な強力な自律エージェントを可能にしている。
能力の増大にもかかわらず、今日のエージェントフレームワークは脆弱であり、セキュアな情報フロー、信頼性、マルチエージェント調整のための原則的なメカニズムが欠如している。
SAFEFLOWは信頼性の高いLDM/VLMベースのエージェントを構築するための新しいプロトコルレベルフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T09:04:37Z) - A Novel Zero-Trust Identity Framework for Agentic AI: Decentralized Authentication and Fine-Grained Access Control [7.228060525494563]
本稿では,Agentic AI IAMフレームワークの提案について述べる。
リッチで検証可能なエージェント識別子(ID)に基づく包括的フレームワークを提案する。
また、Zero-Knowledge Proofs(ZKPs)によって、プライバシ保護属性の開示と検証可能なポリシーコンプライアンスを実現する方法について検討する。
論文 参考訳(メタデータ) (2025-05-25T20:21:55Z) - Automating Safety Enhancement for LLM-based Agents with Synthetic Risk Scenarios [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。
提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文 参考訳(メタデータ) (2024-02-02T17:26:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。