Fugu-MT 論文翻訳(概要): AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration

論文の概要: AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration

arxiv url: http://arxiv.org/abs/2502.09809v1
Date: Thu, 13 Feb 2025 23:00:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.578872
Title: AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration
Title（参考訳）: AgentGuard:ツールオーケストレーションの安全性評価のためのエージェントオーケストレータの再利用
Authors: Jizhou Chen, Samuel Lee Cong,
Abstract要約: AgentGuardは、安全でないツールの使用を自律的に発見し、検証するフレームワークである。エージェントの動作を限定する安全制約を生成し、安全保証の基準を達成する。フレームワークは、安全でないことを識別し、実際の実行でそれらを検証し、安全性の制約を生成し、制約の有効性を検証する。
参考スコア（独自算出の注目度）: 0.3222802562733787
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The integration of tool use into large language models (LLMs) enables agentic systems with real-world impact. In the meantime, unlike standalone LLMs, compromised agents can execute malicious workflows with more consequential impact, signified by their tool-use capability. We propose AgentGuard, a framework to autonomously discover and validate unsafe tool-use workflows, followed by generating safety constraints to confine the behaviors of agents, achieving the baseline of safety guarantee at deployment. AgentGuard leverages the LLM orchestrator's innate capabilities - knowledge of tool functionalities, scalable and realistic workflow generation, and tool execution privileges - to act as its own safety evaluator. The framework operates through four phases: identifying unsafe workflows, validating them in real-world execution, generating safety constraints, and validating constraint efficacy. The output, an evaluation report with unsafe workflows, test cases, and validated constraints, enables multiple security applications. We empirically demonstrate AgentGuard's feasibility with experiments. With this exploratory work, we hope to inspire the establishment of standardized testing and hardening procedures for LLM agents to enhance their trustworthiness in real-world applications.
Abstract（参考訳）: ツールを大規模言語モデル(LLM)に統合することで、現実のインパクトを持つエージェントシステムを実現することができる。一方、スタンドアロンのLLMとは異なり、妥協されたエージェントは、ツール使用能力によって示される、より簡潔な影響で、悪意のあるワークフローを実行することができる。本稿では,安全でないツール使用ワークフローを自律的に検出し,検証するフレームワークであるAgentGuardを提案する。 AgentGuardは、LLMオーケストレータ固有の機能 – ツール機能に関する知識、スケーラブルで現実的なワークフロー生成、ツール実行権限 – を活用して、独自の安全性評価ツールとして機能する。フレームワークは、安全でないワークフローの特定、実際の実行時の検証、安全性の制約の生成、制約の有効性の検証という4つのフェーズで運用されている。アウトプット、安全でないワークフロー、テストケース、検証済みの制約を備えた評価レポートは、複数のセキュリティアプリケーションを可能にします。我々は,AgentGuardが実験で実現可能であることを実証的に示す。この探索研究により,LLMエージェントの信頼性を高めるための標準化された試験・硬化手順の確立が期待できる。

関連論文リスト

A Framework for Benchmarking and Aligning Task-Planning Safety in LLM-Based Embodied Agents [13.225168384790257]
大規模言語モデル(LLM)は、エンボディエージェント内のタスク計画能力を向上する上で大きな可能性を秘めている。我々は, LLMをベースとしたエンボディエージェントの挙動を, セーフプランベンチとアライメントのための統合フレームワークであるSafe-BeAlを提案する。我々の経験的分析によると、敵対的な入力や悪意がなくても、LSMベースのエージェントは安全でない行動を示すことができる。
論文参考訳（メタデータ） (2025-04-20T15:12:14Z)
AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.290987399121343]
LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。 AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文参考訳（メタデータ） (2025-03-24T13:31:48Z)
Safety Aware Task Planning via Large Language Models in Robotics [22.72668275829238]
本稿では,ロボット作業計画に安全意識を組み込むためのマルチLLMフレームワークであるSAFER(Safety-Aware Framework for Execution in Robotics)を紹介する。本フレームワークは, 複数段階の安全フィードバックを統合し, リアルタイムリスク評価, プロアクティブエラー訂正, 透過的安全性評価を実現している。
論文参考訳（メタデータ） (2025-03-19T21:41:10Z)
AGrail: A Lifelong Agent Guardrail with Effective and Adaptive Safety Detection [47.83354878065321]
我々は,エージェントの安全性を高めるため,生涯のガードレールであるAGrailを提案する。 AGrailは適応型安全チェック生成、効果的な安全チェック最適化、ツールの互換性と柔軟性を備えている。
論文参考訳（メタデータ） (2025-02-17T05:12:33Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するための総合ベンチマークであるAgent-SafetyBenchを紹介する。 Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。 16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文参考訳（メタデータ） (2024-12-19T02:35:15Z)
SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [42.69984822098671]
LLMエージェントの安全性を考慮したタスク計画のための新しいベンチマークであるSafeAgentBenchを紹介する。最高のパフォーマンスのベースラインは、安全なタスクで69%の成功率を得るが、有害なタスクでは5%の拒絶率しか得られない。
論文参考訳（メタデータ） (2024-12-17T18:55:58Z)
AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文参考訳（メタデータ） (2024-10-11T17:39:22Z)
Safeguarding AI Agents: Developing and Analyzing Safety Architectures [0.0]
本稿では,人間チームと連携するAIシステムにおける安全対策の必要性について論じる。我々は,AIエージェントシステムにおける安全プロトコルを強化する3つのフレームワークを提案し,評価する。これらのフレームワークはAIエージェントシステムの安全性とセキュリティを大幅に強化することができると結論付けている。
論文参考訳（メタデータ） (2024-09-03T10:14:51Z)
Athena: Safe Autonomous Agents with Verbal Contrastive Learning [3.102303947219617]
大規模言語モデル(LLM)は、様々なタスクを実行するために言語ベースのエージェントとして利用されてきた。本研究では,言語コントラスト学習の概念を活用したアテナフレームワークを提案する。このフレームワークには、エージェントを誘導するクオリティ機構も組み込まれており、各ステップにおけるリスクのあるアクションを防ぐ。
論文参考訳（メタデータ） (2024-08-20T17:21:10Z)
TrustAgent: Towards Safe and Trustworthy LLM-based Agents [50.33549510615024]
本稿では,エージェント・コンスティチューションをベースとしたエージェント・フレームワークであるTrustAgentについて述べる。提案枠組みは,計画立案前のモデルに安全知識を注入する事前計画戦略,計画立案時の安全性を高める内計画戦略,計画後検査による安全性を確保する後計画戦略の3つの戦略要素を通じて,エージェント憲法の厳格な遵守を保証する。
論文参考訳（メタデータ） (2024-02-02T17:26:23Z)
Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文参考訳（メタデータ） (2023-09-25T17:08:02Z)
Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。 Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文参考訳（メタデータ） (2023-07-25T16:49:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。