論文の概要: Sola-Visibility-ISPM: Benchmarking Agentic AI for Identity Security Posture Management Visibility
- arxiv url: http://arxiv.org/abs/2601.07880v1
- Date: Sun, 11 Jan 2026 18:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.889205
- Title: Sola-Visibility-ISPM: Benchmarking Agentic AI for Identity Security Posture Management Visibility
- Title(参考訳): Sola-Visibility-ISPM:Identity Security Posture Management VisibilityのためのベンチマークエージェントAI
- Authors: Gal Engelberg, Konstantin Koutsyi, Leon Goldberg, Reuven Elezra, Idan Pinto, Tal Moalem, Shmuel Cohen, Yoni Weintrob,
- Abstract要約: 基礎的なISPM可視性タスクに基づいてエージェントAIシステムを評価する最初のベンチマークである、Sola Visibility ISPM Benchmarkを紹介する。
このベンチマークでは、アイデンティティのインベントリと衛生上の問題に焦点が当てられ、Sola AI Agentが付属している。
77のベンチマーク質問に対して、エージェントは、専門家の精度0.84、厳密な成功率0.77で、高い総合的なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.36136619420474764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identity Security Posture Management (ISPM) is a core challenge for modern enterprises operating across cloud and SaaS environments. Answering basic ISPM visibility questions, such as understanding identity inventory and configuration hygiene, requires interpreting complex identity data, motivating growing interest in agentic AI systems. Despite this interest, there is currently no standardized way to evaluate how well such systems perform ISPM visibility tasks on real enterprise data. We introduce the Sola Visibility ISPM Benchmark, the first benchmark designed to evaluate agentic AI systems on foundational ISPM visibility tasks using a live, production-grade identity environment spanning AWS, Okta, and Google Workspace. The benchmark focuses on identity inventory and hygiene questions and is accompanied by the Sola AI Agent, a tool-using agent that translates natural-language queries into executable data exploration steps and produces verifiable, evidence-backed answers. Across 77 benchmark questions, the agent achieves strong overall performance, with an expert accuracy of 0.84 and a strict success rate of 0.77. Performance is highest on AWS hygiene tasks, where expert accuracy reaches 0.94, while results on Google Workspace and Okta hygiene tasks are more moderate, yet competitive. Overall, this work provides a practical and reproducible benchmark for evaluating agentic AI systems in identity security and establishes a foundation for future ISPM benchmarks covering more advanced identity analysis and governance tasks.
- Abstract(参考訳): Identity Security Posture Management(ISPM)は、クラウドとSaaS環境を横断して運用する現代企業にとって、中核的な課題である。
アイデンティティのインベントリや構成衛生の理解など、基本的なISPMの可視性に関する疑問に答えるには、複雑なアイデンティティデータを解釈し、エージェントAIシステムへの関心の高まりを動機付ける必要がある。
このような関心にもかかわらず、そのようなシステムが実際のエンタープライズデータ上でいかにISPM可視性タスクを実行するかを評価するための標準化された方法が現在存在しない。
私たちは、AWS、Okta、Google Workspaceにまたがる実運用レベルのアイデンティティ環境を使用して、基礎的なISPM可視性タスク上でエージェントAIシステムを評価するために設計された最初のベンチマークである、Sola Visibility ISPM Benchmarkを紹介します。
ベンチマークでは、アイデンティティのインベントリと衛生に関する質問に焦点が当てられ、自然言語クエリを実行可能なデータ探索ステップに変換し、検証可能なエビデンス支援の回答を生成するツール使用エージェントであるSola AI Agentが付属している。
77のベンチマーク質問に対して、エージェントは、専門家の精度0.84、厳密な成功率0.77で、高い総合的なパフォーマンスを達成する。
AWSの衛生タスクでは、専門家の精度が0.94に達するのに対して、Google WorkspaceとOktaの衛生タスクでは、より適度だが競争力がある。
全体として、この研究は、IDセキュリティにおいてエージェントAIシステムを評価するための実用的で再現可能なベンチマークを提供し、より高度なアイデンティティ分析とガバナンスタスクをカバーする将来のISPMベンチマークの基礎を確立する。
関連論文リスト
- Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。