論文の概要: AIR: Improving Agent Safety through Incident Response
- arxiv url: http://arxiv.org/abs/2602.11749v1
- Date: Thu, 12 Feb 2026 09:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.745372
- Title: AIR: Improving Agent Safety through Incident Response
- Title(参考訳): AIR:インシデント対応によるエージェントの安全性向上
- Authors: Zibo Xiao, Jun Sun, Junjie Chen,
- Abstract要約: 本稿では,Large Language Model (LLM)エージェントシステムにおける最初のインシデント応答フレームワークであるAIRを紹介する。
AIR は LLM エージェントシステムでインシデント応答ライフサイクルを自律的に管理するためのドメイン固有言語を定義する。
その結果、AIRは検出、修復、根絶の成功率が90%を超えていることが判明した。
- 参考スコア(独自算出の注目度): 8.845095096023021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents are increasingly deployed in practice across a wide range of autonomous applications. Yet current safety mechanisms for LLM agents focus almost exclusively on preventing failures in advance, providing limited capabilities for responding to, containing, or recovering from incidents after they inevitably arise. In this work, we introduce AIR, the first incident response framework for LLM agent systems. AIR defines a domain-specific language for managing the incident response lifecycle autonomously in LLM agent systems, and integrates it into the agent's execution loop to (1) detect incidents via semantic checks grounded in the current environment state and recent context, (2) guide the agent to execute containment and recovery actions via its tools, and (3) synthesize guardrail rules during eradication to block similar incidents in future executions. We evaluate AIR on three representative agent types. Results show that AIR achieves detection, remediation, and eradication success rates all exceeding 90%. Extensive experiments further confirm the necessity of AIR's key design components, show the timeliness and moderate overhead of AIR, and demonstrate that LLM-generated rules can approach the effectiveness of developer-authored rules across domains. These results show that incident response is both feasible and essential as a first-class mechanism for improving agent safety.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、広範囲の自律的アプリケーションに実際にデプロイされることが増えている。
しかし、LLMエージェントの現在の安全性メカニズムは、前もって失敗を防ぐことに集中しており、必然的に発生した後のインシデントへの応答、封じ込め、回復の限られた能力を提供している。
本稿では, LLMエージェントシステムにおける最初のインシデント応答フレームワークであるAIRを紹介する。
AIR は LLM エージェントシステムにおいて,インシデント応答ライフサイクルを自律的に管理するドメイン固有言語を定義し,(1) エージェントの実行ループに統合して,(1) エージェントが現在の環境と最近の状況に根ざしたセマンティックチェックを通じてインシデントを検出する。
代表的なエージェント3種についてAIRを評価した。
その結果、AIRは検出、修復、根絶の成功率が90%を超えていることが判明した。
広範な実験により、AIRのキーデザインコンポーネントの必要性がさらに確認され、AIRのタイムラインと適度なオーバーヘッドが示され、LLM生成ルールが、ドメイン間で開発者によって認可されたルールの有効性にアプローチできることが示されます。
これらの結果から, インシデント応答は, エージェントの安全性を向上させるための第一級メカニズムとして, 実現可能かつ不可欠であることが示唆された。
関連論文リスト
- AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security [126.49733412191416]
現在のガードレールモデルは、リスク診断におけるエージェント的リスク認識と透明性を欠いている。
エージェントリスクをソース(場所)、障害モード(方法)、結果(何)で分類する統合された3次元分類法を提案する。
AgentDoG(AgentDoG)のための,エージェント安全性ベンチマーク(ATBench)と診断ガードレールフレームワークを新たに導入する。
論文 参考訳(メタデータ) (2026-01-26T13:45:41Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - Interact-RAG: Reason and Interact with the Corpus, Beyond Black-Box Retrieval [49.85856484781787]
本稿では,ILMエージェントを検索プロセスのアクティブマニピュレータに高める新しいパラダイムであるInteract-RAGを紹介する。
我々は、ゼロショット実行と相互作用軌跡の合成を可能にする推論強化ワークフローを開発する。
6つのベンチマーク実験により、Interact-RAGは他の高度な手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-31T15:48:43Z) - Check Yourself Before You Wreck Yourself: Selectively Quitting Improves LLM Agent Safety [2.7030665672026846]
大規模言語モデル(LLM)エージェントは、現実の結果を伴う複雑な環境でますます運用される。
信頼性に欠ける状況からLLMエージェントが認識・撤退するための、シンプルで効果的な行動機構として「クイッティング」を用いることを提案する。
論文 参考訳(メタデータ) (2025-10-18T13:22:19Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - AgentGuard: Repurposing Agentic Orchestrator for Safety Evaluation of Tool Orchestration [0.3222802562733787]
AgentGuardは、安全でないツールの使用を自律的に発見し、検証するフレームワークである。
エージェントの動作を限定する安全制約を生成し、安全保証の基準を達成する。
フレームワークは、安全でないことを識別し、実際の実行でそれらを検証し、安全性の制約を生成し、制約の有効性を検証する。
論文 参考訳(メタデータ) (2025-02-13T23:00:33Z) - Towards Action Hijacking of Large Language Model-based Agent [23.13653350521422]
LLMベースのアプリケーションのアクションプランを操作するための新しい攻撃であるAI$mathbf2$を紹介する。
まず、被害者のアプリケーションからアクション認識の知識を収集する。
このような知識に基づいて、攻撃者は誤解を招く入力を生成することができ、LLMを誤解して有害なアクションプランを生成することができる。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。