Fugu-MT 論文翻訳(概要): Progent: Programmable Privilege Control for LLM Agents

論文の概要: Progent: Programmable Privilege Control for LLM Agents

arxiv url: http://arxiv.org/abs/2504.11703v1
Date: Wed, 16 Apr 2025 01:58:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 22:19:54.432556
Title: Progent: Programmable Privilege Control for LLM Agents
Title（参考訳）: LLMエージェントのプログラム可能なプリビレージ制御
Authors: Tianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song,
Abstract要約: LLMエージェントの最初の特権制御機構であるProgentを紹介する。コアとなるのは、エージェント実行中に適用される権限制御ポリシを柔軟に表現するためのドメイン固有言語である。これにより、エージェント開発者とユーザは、特定のユースケースに対して適切なポリシーを作成し、セキュリティを保証するために決定的にそれらを強制することができる。
参考スコア（独自算出の注目度）: 46.49787947705293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLM agents are an emerging form of AI systems where large language models (LLMs) serve as the central component, utilizing a diverse set of tools to complete user-assigned tasks. Despite their great potential, LLM agents pose significant security risks. When interacting with the external world, they may encounter malicious commands from attackers, leading to the execution of dangerous actions. A promising way to address this is by enforcing the principle of least privilege: allowing only essential actions for task completion while blocking unnecessary ones. However, achieving this is challenging, as it requires covering diverse agent scenarios while preserving both security and utility. We introduce Progent, the first privilege control mechanism for LLM agents. At its core is a domain-specific language for flexibly expressing privilege control policies applied during agent execution. These policies provide fine-grained constraints over tool calls, deciding when tool calls are permissible and specifying fallbacks if they are not. This enables agent developers and users to craft suitable policies for their specific use cases and enforce them deterministically to guarantee security. Thanks to its modular design, integrating Progent does not alter agent internals and requires only minimal changes to agent implementation, enhancing its practicality and potential for widespread adoption. To automate policy writing, we leverage LLMs to generate policies based on user queries, which are then updated dynamically for improved security and utility. Our extensive evaluation shows that it enables strong security while preserving high utility across three distinct scenarios or benchmarks: AgentDojo, ASB, and AgentPoison. Furthermore, we perform an in-depth analysis, showcasing the effectiveness of its core components and the resilience of its automated policy generation against adaptive attacks.
Abstract（参考訳）: LLMエージェントは、大きな言語モデル(LLM)が中心的なコンポーネントとして機能し、ユーザ指定タスクの完了にさまざまなツールセットを活用する、AIシステムの新たな形態である。その大きな可能性にもかかわらず、LLMエージェントは重大なセキュリティリスクを生じさせる。外部の世界と対話する場合、攻撃者からの悪意のあるコマンドに遭遇し、危険なアクションの実行につながる可能性がある。これを解決するための有望な方法は、最小特権の原則を強制することである。しかし、セキュリティとユーティリティの両方を保ちながら、多様なエージェントシナリオをカバーする必要があるため、これを実現するのは難しい。 LLMエージェントの最初の特権制御機構であるProgentを紹介する。コアとなるのは、エージェント実行中に適用される権限制御ポリシを柔軟に表現するためのドメイン固有言語である。これらのポリシーは、ツールコールに対するきめ細かい制約を提供し、いつツールコールが許容可能かを決定し、そうでない場合はフォールバックを指定する。これにより、エージェント開発者とユーザは、特定のユースケースに対して適切なポリシーを作成し、セキュリティを保証するために決定的にそれらを強制することができる。モジュール設計のおかげで、Progentの統合はエージェント内部を変更せず、エージェントの実装に最小限の変更しか必要とせず、実用性を高め、広く採用される可能性がある。ポリシー記述を自動化するために,LSMを活用してユーザクエリに基づいたポリシを生成し,セキュリティとユーティリティを改善するために動的に更新する。我々の広範な評価は、AgentDojo、ASB、AgentPoisonの3つの異なるシナリオまたはベンチマークで高いユーティリティを保ちながら、強力なセキュリティを可能にすることを示している。さらに、我々は、そのコアコンポーネントの有効性と、適応攻撃に対する自動ポリシー生成のレジリエンスを示す、詳細な分析を行う。

関連論文リスト

AgenTRIM: Tool Risk Mitigation for Agentic AI [5.4672006013914975]
ツール駆動型エージェントリスクの検出と緩和のためのフレームワークであるAgenTRIMを紹介する。 AgenTRIMは、これらのリスクに相補的なオフラインおよびオンラインフェーズを通じて対処する。 AgenTRIMは、高いタスク性能を維持しながら、攻撃成功を大幅に削減する。
論文参考訳（メタデータ） (2026-01-18T15:10:18Z)
Taming Various Privilege Escalation in LLM-Based Agent Systems: A Mandatory Access Control Framework [16.14469140816631]
LLM(Large Language Model)ベースのエージェントシステムは、複雑な現実世界のタスクに対してますます多くデプロイされている。本稿では,特権エスカレーションのレンズによる攻撃の理解と軽減を目的としている。属性ベースアクセス制御(ABAC)に基づく必須アクセス制御フレームワークSEAgentを提案する。評価の結果,SEAgentは低偽陽性率と無視可能なシステムオーバーヘッドを維持しつつ,様々な特権のエスカレーションを効果的に抑制していることがわかった。
論文参考訳（メタデータ） (2026-01-17T03:22:56Z)
ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。 LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文参考訳（メタデータ） (2026-01-15T07:54:32Z)
Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。 LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文参考訳（メタデータ） (2026-01-12T21:31:38Z)
Secure and Efficient Access Control for Computer-Use Agents via Context Space [11.077973600902853]
CSAgentは、コンピュータ利用エージェントのためのシステムレベルの静的ポリシーベースのアクセス制御フレームワークである。我々はCSAgentの実装と評価を行い、99.36%以上の攻撃に対して防御に成功し、パフォーマンスオーバーヘッドは6.83%に過ぎなかった。
論文参考訳（メタデータ） (2025-09-26T12:19:27Z)
Agent Safety Alignment via Reinforcement Learning [29.759393704688986]
ツール・ユース・エージェントのための一貫した安全アライメント・フレームワークを提案する。我々は、良識、悪意があり、ユーザープロンプトとツール応答の両方に敏感な三段階分類を導入する。その結果,安全性と有効性は共同で最適化できることが示唆された。
論文参考訳（メタデータ） (2025-07-11T02:34:16Z)
OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文参考訳（メタデータ） (2025-07-08T16:18:54Z)
DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [33.40201949055383]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T05:01:09Z)
LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。 AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文参考訳（メタデータ） (2025-05-29T21:39:08Z)
AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文参考訳（メタデータ） (2025-05-09T07:40:17Z)
LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文参考訳（メタデータ） (2025-05-06T14:34:21Z)
SAGA: A Security Architecture for Governing AI Agentic Systems [13.106925341037046]
大規模言語モデル(LLM)ベースのエージェントは、最小限の人間インタラクションでタスクを自律的に相互に対話し、協力し、委譲する傾向にある。エージェントシステムガバナンスの業界ガイドラインは、ユーザがエージェントの包括的な制御を維持する必要性を強調している。我々はエージェントシステムのセキュリティアーキテクチャであるSAGAを提案し,エージェントのライフサイクルをユーザから監視する。
論文参考訳（メタデータ） (2025-04-27T23:10:00Z)
DoomArena: A framework for Testing AI Agents Against Evolving Security Threats [84.94654617852322]
本稿では,AIエージェントのセキュリティ評価フレームワークであるDoomArenaを紹介する。プラグインフレームワークであり、現実的なエージェントフレームワークと簡単に統合できる。モジュールであり、エージェントがデプロイされる環境の詳細から攻撃の開発を分離する。
論文参考訳（メタデータ） (2025-04-18T20:36:10Z)
Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Models (LLMs) を中心とした保護システムレイヤを作成する堅牢な防御機能である。 CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。最近のエージェントセキュリティベンチマークであるAgentDojo[NeurIPS 2024]で、証明可能なセキュリティを備えた67%のタスクを解決し、CaMeLの有効性を実証した。
論文参考訳（メタデータ） (2025-03-24T15:54:10Z)
AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.290987399121343]
LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。 AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文参考訳（メタデータ） (2025-03-24T13:31:48Z)
Prompt Flow Integrity to Prevent Privilege Escalation in LLM Agents [12.072737324367937]
大きな言語モデル(LLM)は、強力なLLMエージェントを作成するプラグインと組み合わせられる。 LLMの動作は、ユーザまたはプラグインのデータから自然言語のプロンプトによって実行時に決定される。 LLMエージェントの特権エスカレーションを防止するために,PFI(Prompt Flow Integrity)を提案する。
論文参考訳（メタデータ） (2025-03-17T05:27:57Z)
Automating Prompt Leakage Attacks on Large Language Models Using Agentic Approach [9.483655213280738]
本稿では,大規模言語モデル(LLM)の安全性を評価するための新しいアプローチを提案する。我々は、プロンプトリークをLLMデプロイメントの安全性にとって重要な脅威と定義する。我々は,協調エージェントが目的のLLMを探索・活用し,そのプロンプトを抽出するマルチエージェントシステムを実装した。
論文参考訳（メタデータ） (2025-02-18T08:17:32Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents [6.829628038851487]
大きな言語モデル(LLM)エージェントは、ツール統合を通じて複雑な現実世界のタスクを実行できる対話アシスタントとして、ますます多くデプロイされている。特に間接的なプロンプトインジェクション攻撃は、外部データソースに埋め込まれた悪意のある命令が、エージェントを操作してユーザの意図を逸脱させる、重大な脅威となる。我々は,エージェントのセキュリティが有害な行為を防止し,タスクアライメントを確保するためには,すべてのエージェントアクションをユーザ目的に役立てる必要がある,という新たな視点を提案する。
論文参考訳（メタデータ） (2024-12-21T16:17:48Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。 GuardAgentは,98%,83%以上のガードレールアキュラシーを有する2つのベンチマークにおいて,異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文参考訳（メタデータ） (2024-06-13T14:49:26Z)
Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文参考訳（メタデータ） (2024-02-27T15:09:20Z)
Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents [47.219047422240145]
我々は、LSMベースのエージェントに対して、典型的な安全脅威であるバックドアアタックの1つを調査する第一歩を踏み出した。具体的には、ユーザ入力とモデル出力のみを操作できる従来のLDMに対するバックドア攻撃と比較して、エージェントバックドア攻撃はより多様で隠蔽的な形式を示す。
論文参考訳（メタデータ） (2024-02-17T06:48:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。