論文の概要: Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security
- arxiv url: http://arxiv.org/abs/2605.23989v1
- Date: Sun, 17 May 2026 10:26:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.442947
- Title: Towards trustworthy agentic AI: a comprehensive survey of safety, robustness, privacy, and system security
- Title(参考訳): 信頼できるエージェントAIを目指して - 安全性、堅牢性、プライバシ、システムセキュリティに関する包括的な調査
- Authors: Jinhu Qi, Muzhi Li, Jiahong Liu, Yuqin Shu, Dianzhi Yu, Shicheng Ma, Wenqian Cui, Yiyang Zhao, Yiyi Chen, Ruoxi Jiang, Irwin King, Zenglin Xu,
- Abstract要約: エージェントAIシステムは、複雑なタスクを自律的に実行するが、その多段階の軌道には、信頼性に挑戦する新たな障害モードが導入されている。
この調査では、リスクの高いデプロイメントに不可欠な2つのコアディメンションを通じて、信頼できるエージェントAIを精査する。
各次元について、重要な概念を明確にし、エージェントワークフローに沿ってリスクが発生する場所を特定し、ステージ目標の緩和戦略を要約する。
- 参考スコア(独自算出の注目度): 57.35851886874902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic AI systems -- Large Language Models (LLMs) augmented with planning, tool use, memory, and long-horizon interactions -- can execute complex tasks autonomously, but their multi-step trajectories introduce new failure modes that challenge trustworthiness. This survey provides a focused examination of trustworthy agentic AI through two core dimensions that are critical for high-risk deployments: Safety and Robustness, and Privacy and System Security. For each dimension, we clarify key concepts, identify where risks emerge along the agent workflow, and summarize stage-targeted mitigation strategies. Other trustworthiness aspects (value alignment, transparency, fairness, and accountability) are discussed as relevant context rather than parallel chapters. To support consistent comparison and deployment decisions, we consolidate evaluation into a unified metrics-and-benchmarks hub, emphasizing both outcome and process signals (e.g., constraint violations, trace completeness, and adversarial success rates) and offering scenario-to-metric guidance for release gating. We conclude by outlining open challenges such as self-evolving agents, runtime monitoring and verification, privacy-preserving personalization, and the trust-utility trade-off, and present a case study of real-world security failures in open-source agentic systems. Our goal is to serve as a practical reference for researchers and practitioners building trustworthy agentic systems in high-stakes environments.
- Abstract(参考訳): エージェントAIシステム – 計画、ツール使用、メモリ、長期にわたるインタラクションを拡張した大規模言語モデル(LLM) – は、複雑なタスクを自律的に実行することができるが、そのマルチステップの軌道には、信頼性に挑戦する新たな障害モードが導入されている。
この調査は、高リスクデプロイメントにおいて重要な2つの中核的な側面(安全性とロバスト性、プライバシとシステムセキュリティ)を通じて、信頼できるエージェントAIを精査する。
各次元について、重要な概念を明確にし、エージェントワークフローに沿ってリスクが発生する場所を特定し、ステージ目標の緩和戦略を要約する。
その他の信頼性の側面(価値の整合性、透明性、公平性、説明責任)は、平行した章ではなく、関連する文脈として議論される。
一貫性のある比較とデプロイメントの決定をサポートするため、評価を統合されたメトリクスとベンチマークハブに統合し、結果とプロセスの信号(例えば、制約違反、トレース完全性、敵的成功率)を強調し、リリースゲーティングのためのシナリオ・ツー・メトリックのガイダンスを提供する。
我々は、セルフ進化エージェント、ランタイム監視と検証、プライバシー保護のパーソナライゼーション、信頼ユーティリティトレードオフといったオープンな課題を概説し、オープンソースのエージェントシステムにおける現実のセキュリティ障害のケーススタディを示す。
私たちのゴールは、高所で信頼できるエージェントシステムを構築する研究者や実践者にとって、実践的な参考となることです。
関連論文リスト
- Safety in Embodied AI: A Survey of Risks, Attacks, and Defenses [168.50301366360344]
Embodied AI (Embodied AI) は、知覚、認知、計画、相互作用を、安全クリティカルな環境で機能するエージェントに統合する。
デジタルAIシステムとは異なり、エンボディエージェントは不確実な検知、不完全な知識、動的な人間とロボットの相互作用の下で行動しなければならない。
この調査は、エンボディされたAIにおける安全性研究の包括的なレビューを提供し、完全なエンボディされたパイプラインにわたる攻撃と防御を調査している。
論文 参考訳(メタデータ) (2026-03-28T13:21:44Z) - Security Considerations for Artificial Intelligence Agents [7.055090485438426]
この記事では、フロンティアAIエージェントのセキュリティに関するPerplexityの観察とレコメンデーションについて詳述する。
ツール、コネクタ、ホスティングバウンダリ、マルチエージェントコーディネートにアタックサーフェスをマップします。
我々は,NISTのリスク管理の原則に適合した安全マルチエージェントシステム設計の指針として,標準と研究ギャップを特定した。
論文 参考訳(メタデータ) (2026-03-12T17:49:39Z) - Simulating and Understanding Deceptive Behaviors in Long-Horizon Interactions [18.182800471968132]
大規模言語モデルにおける偽造の探索と評価のための最初のシミュレーションフレームワークを紹介する。
11のフロンティアモデルで実験を行い、クローズドシステムとオープンソースシステムの両方にまたがっています。
詐欺はモデルに依存しており、イベントプレッシャーの増加とともに増加し、常に監督的信頼を損なう。
論文 参考訳(メタデータ) (2025-10-05T02:18:23Z) - TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems [8.683314804719506]
本稿では,エージェントマルチエージェントシステム(AMAS)における信頼・リスク・セキュリティマネジメント(TRiSM)の構造的分析について述べる。
まず、エージェントAIの概念的基礎を調べ、従来のAIエージェントとアーキテクチャ的区別を強調します。
次に、Textit Explainability、ModelOps、Security、Privacy、Textittheirのガバナンスガバナンスといった重要な柱を中心に構築された、エージェントAIのためのAI TRiSMフレームワークを適応して拡張します。
調整失敗から調整失敗まで、エージェントAIのユニークな脅威と脆弱性を捉えるためにリスク分類法が提案されている。
論文 参考訳(メタデータ) (2025-06-04T16:26:11Z) - LLM Agents Should Employ Security Principles [60.03651084139836]
本稿では,大規模言語モデル(LLM)エージェントを大規模に展開する際には,情報セキュリティの確立した設計原則を採用するべきであることを論じる。
AgentSandboxは、エージェントのライフサイクル全体を通して保護を提供するために、これらのセキュリティ原則を組み込んだ概念的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T21:39:08Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。