論文の概要: Incident Analysis for AI Agents
- arxiv url: http://arxiv.org/abs/2508.14231v1
- Date: Tue, 19 Aug 2025 19:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.258007
- Title: Incident Analysis for AI Agents
- Title(参考訳): AIエージェントのインシデント分析
- Authors: Carson Ezell, Xavier Roberts-Gaal, Alan Chan,
- Abstract要約: AIエージェントがより広くデプロイされるにつれて、インシデントの数が増える可能性が高い。
本稿ではエージェントのインシデント分析フレームワークを提案する。
特定のインシデントに関連する要因を明らかにするのに役立つ、特定の情報を特定します。
- 参考スコア(独自算出の注目度): 0.7831579563743714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents become more widely deployed, we are likely to see an increasing number of incidents: events involving AI agent use that directly or indirectly cause harm. For example, agents could be prompt-injected to exfiltrate private information or make unauthorized purchases. Structured information about such incidents (e.g., user prompts) can help us understand their causes and prevent future occurrences. However, existing incident reporting processes are not sufficient for understanding agent incidents. In particular, such processes are largely based on publicly available data, which excludes useful, but potentially sensitive, information such as an agent's chain of thought or browser history. To inform the development of new, emerging incident reporting processes, we propose an incident analysis framework for agents. Drawing on systems safety approaches, our framework proposes three types of factors that can cause incidents: system-related (e.g., CBRN training data), contextual (e.g., prompt injections), and cognitive (e.g., misunderstanding a user request). We also identify specific information that could help clarify which factors are relevant to a given incident: activity logs, system documentation and access, and information about the tools an agent uses. We provide recommendations for 1) what information incident reports should include and 2) what information developers and deployers should retain and make available to incident investigators upon request. As we transition to a world with more agents, understanding agent incidents will become increasingly crucial for managing risks.
- Abstract(参考訳): AIエージェントがより広くデプロイされるにつれて、AIエージェントを含むイベントが直接的または間接的に害を引き起こすという、インシデントの増加が見られます。
例えば、エージェントはプロンプトインジェクションされ、個人情報を流出させたり、不正な購入を行うことができる。
このようなインシデントに関する構造化情報(例えば、ユーザプロンプト)は、その原因を理解し、将来の発生を防止するのに役立ちます。
しかし、既存のインシデント報告プロセスはエージェントインシデントを理解するには不十分である。
特に、そのようなプロセスは一般に利用可能なデータに基づいており、エージェントの思考連鎖やブラウザ履歴のような有用なが潜在的に敏感な情報を除外している。
新たなインシデント報告プロセスの進展を知らせるため,エージェントのインシデント分析フレームワークを提案する。
システムセーフティアプローチに基づいて,システム関連(CBRNトレーニングデータなど),コンテキスト的(例えば,迅速なインジェクション),認知的(例えば,ユーザ要求を誤解する)という,インシデントを引き起こす可能性のある3つの要因を提案する。
アクティビティログ、システムドキュメンテーションとアクセス、エージェントが使用するツールに関する情報など、特定のインシデントに関連する要因を明らかにするのに役立つ具体的な情報も特定します。
推薦します
1) インシデント報告に含めるべき情報と
2 情報開発業者及びデプロイ業者は、請求により、当該情報提供者に対し、どのような情報を保持し、提供すべきであるか。
エージェントの数が増えるにつれて、エージェントのインシデントを理解することが、リスクを管理する上でますます重要になります。
関連論文リスト
- From Incidents to Insights: Patterns of Responsibility following AI Harms [1.9389881806157316]
AIインシデントデータベースは航空安全データベースにインスパイアされ、障害からの集合的学習を可能とし、将来のインシデントを防ぐ。
データベースは、ニュースやメディアから収集された数百のAI障害を文書化している。
技術的に焦点を絞った学習を超えて、データセットは新たな、非常に価値のある洞察を提供することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2025-05-07T09:59:36Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、AIウェブナビゲーションエージェントがデータ最小化のプライバシー原則に従うかどうかを測定する新しいベンチマークAgentDAMを紹介する。
我々のベンチマークは、現実的なWebインタラクションシナリオをエンドツーエンドでシミュレートし、既存のWebナビゲーションエージェントに適応する。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Infrastructure for AI Agents [3.373674048991415]
我々は,技術システムとAIエージェント以外の共有プロトコルという,テクスチャファジェントインフラストラクチャの概念を提案する。
1)特定のエージェント,そのユーザ,あるいは他のアクターに行動をもたらすこと,2)エージェントのインタラクションを形成すること,3)エージェントから有害なアクションを検出して治療すること,である。
論文 参考訳(メタデータ) (2025-01-17T10:58:12Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z) - Information Design in Multi-Agent Reinforcement Learning [61.140924904755266]
強化学習(Reinforcement Learning、RL)は、人間の幼児や動物が環境から学ぶ方法にインスパイアされている。
計算経済学の研究は、他者に直接影響を与える2つの方法を蒸留する: 有形物(機械設計)の提供と情報(情報設計)の提供である。
論文 参考訳(メタデータ) (2023-05-08T07:52:15Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - NERD: Neural Network for Edict of Risky Data Streams [0.0]
サイバーインシデントは、単純な接続損失から断続的な攻撃まで、幅広い原因を持つ可能性がある。
このシステムには侵入検知システムや監視ツールなど,複数の情報ソースが組み込まれている。
シンクパッケージ比のような20以上の重要な属性を使用して、潜在的なセキュリティインシデントを特定し、データを異なる優先順位カテゴリに分類する。
論文 参考訳(メタデータ) (2020-07-08T14:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。