論文の概要: AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration
- arxiv url: http://arxiv.org/abs/2502.09809v1
- Date: Thu, 13 Feb 2025 23:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:46:51.475960
- Title: AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration
- Title(参考訳): AgentGuard:ツールオーケストレーションの安全性評価のためのエージェントオーケストレータの再利用
- Authors: Jizhou Chen, Samuel Lee Cong,
- Abstract要約: AgentGuardは、安全でないツールの使用を自律的に発見し、検証するフレームワークである。
エージェントの動作を限定する安全制約を生成し、安全保証の基準を達成する。
フレームワークは、安全でないことを識別し、実際の実行でそれらを検証し、安全性の制約を生成し、制約の有効性を検証する。
- 参考スコア(独自算出の注目度): 0.3222802562733787
- License:
- Abstract: The integration of tool use into large language models (LLMs) enables agentic systems with real-world impact. In the meantime, unlike standalone LLMs, compromised agents can execute malicious workflows with more consequential impact, signified by their tool-use capability. We propose AgentGuard, a framework to autonomously discover and validate unsafe tool-use workflows, followed by generating safety constraints to confine the behaviors of agents, achieving the baseline of safety guarantee at deployment. AgentGuard leverages the LLM orchestrator's innate capabilities - knowledge of tool functionalities, scalable and realistic workflow generation, and tool execution privileges - to act as its own safety evaluator. The framework operates through four phases: identifying unsafe workflows, validating them in real-world execution, generating safety constraints, and validating constraint efficacy. The output, an evaluation report with unsafe workflows, test cases, and validated constraints, enables multiple security applications. We empirically demonstrate AgentGuard's feasibility with experiments. With this exploratory work, we hope to inspire the establishment of standardized testing and hardening procedures for LLM agents to enhance their trustworthiness in real-world applications.
- Abstract(参考訳): ツールを大規模言語モデル(LLM)に統合することで、現実のインパクトを持つエージェントシステムを実現することができる。
一方、スタンドアロンのLLMとは異なり、妥協されたエージェントは、ツール使用能力によって示される、より簡潔な影響で、悪意のあるワークフローを実行することができる。
本稿では,安全でないツール使用ワークフローを自律的に検出し,検証するフレームワークであるAgentGuardを提案する。
AgentGuardは、LLMオーケストレータ固有の機能 – ツール機能に関する知識、スケーラブルで現実的なワークフロー生成、ツール実行権限 – を活用して、独自の安全性評価ツールとして機能する。
フレームワークは、安全でないワークフローの特定、実際の実行時の検証、安全性の制約の生成、制約の有効性の検証という4つのフェーズで運用されている。
アウトプット、安全でないワークフロー、テストケース、検証済みの制約を備えた評価レポートは、複数のセキュリティアプリケーションを可能にします。
我々は,AgentGuardが実験で実現可能であることを実証的に示す。
この探索研究により,LLMエージェントの信頼性を高めるための標準化された試験・硬化手順の確立が期待できる。
関連論文リスト
- AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。
AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文 参考訳(メタデータ) (2025-02-17T05:12:33Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
LLMエージェントの安全性を考慮したタスク計画のための新しいベンチマークであるSafeAgentBenchを紹介する。
最高のパフォーマンスのベースラインは、安全なタスクで69%の成功率を得るが、有害なタスクでは5%の拒絶率しか得られない。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z) - MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control [20.796190000442053]
モバイル機器制御エージェントの安全性を評価するためのベンチマークであるMobileSafetyBenchを紹介する。
メッセージングやバンキングアプリケーションを含む,さまざまなモバイルアプリケーションとのインタラクションに関わる,さまざまなタスクセットを開発します。
実験の結果,現状のLDMをベースとしたベースラインエージェントは,タスク実行時に害を効果的に防ぐことができないことが多いことがわかった。
論文 参考訳(メタデータ) (2024-10-23T02:51:43Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。
我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。
これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文 参考訳(メタデータ) (2024-09-03T10:14:51Z) - Athena: Safe Autonomous Agents with Verbal Contrastive Learning [3.102303947219617]
大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。
本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。
このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
論文 参考訳(メタデータ) (2024-08-20T17:21:10Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。