論文の概要: Cross-Vendor Sola ISPM Benchmark: Evaluating Agentic AI for Federated Identity Security Reasoning
- arxiv url: http://arxiv.org/abs/2606.02674v1
- Date: Mon, 01 Jun 2026 12:41:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.509998
- Title: Cross-Vendor Sola ISPM Benchmark: Evaluating Agentic AI for Federated Identity Security Reasoning
- Title(参考訳): クロスベンダのSola ISPMベンチマーク - フェデレーションIDセキュリティ推論のためのエージェントAIの評価
- Authors: Eden Yavin, Gal Engelberg, Konstantin Koutsyi, Leon Goldberg, Gal Baron,
- Abstract要約: 既存の評価は、孤立した単一プラットフォーム環境に焦点を当てている。
我々は、50個のデータ基底タスクのプロダクショングレードベンチマークであるCross-Vendor Sola ISPMベンチマークを紹介する。
また、最終回答の正当性だけでなく、明らかな根拠も測定する評価フレームワークにも貢献する。
- 参考スコア(独自算出の注目度): 0.41942958779358674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of multi-cloud and SaaS platforms has transformed Identity Security Posture Management (ISPM) into a fundamentally cross-vendor challenge: critical misconfigurations and privilege escalation paths increasingly span multiple identity providers, infrastructure layers, and authentication systems never designed to interoperate. Existing evaluations focus on isolated single-platform environments and provide no means to assess whether an AI agent can reason across these fragmented boundaries. To address this gap, we introduce the Cross-Vendor Sola ISPM Benchmark, a production-grade benchmark of 50 data-grounded tasks requiring multi-hop entity resolution and cross-system correlation across eight integrated enterprise platforms including AWS, Okta, Azure AD, and Google Workspace. We also contribute an evaluation framework measuring not only final answer correctness but also evidentiary grounding, structural join fidelity, retrieval quality, and SQL equivalence. We evaluate the Sola AI Agent across five context configurations - from no injected metadata to full schema, graph, and retrieval context - using three frontier LLMs. Results show that structured relational context improves answer correctness by approximately 34% relatively and reduces exploration queries by approximately 70% across all tested models, with the largest gains driven by cross-vendor graph topology. Our findings indicate that frontier LLMs possess substantial latent security reasoning capability, but reliable cross-vendor identity analysis is fundamentally constrained by the availability of explicit relational context for entity resolution and evidentiary grounding. Under full context, the best configuration achieves 78% answer correctness while reducing complete failure to 4%.
- Abstract(参考訳): 重要なミスコンフィグレーションと特権エスカレーションパスは、複数のIDプロバイダ、インフラストラクチャ層、認証システムが相互運用するように設計されていないようになってきている。
既存の評価は、分離された単一プラットフォーム環境に焦点を当てており、AIエージェントがこれらの断片化された境界を越えて推論できるかどうかを評価する手段を提供していない。
このギャップを解決するために、AWS、Okta、Azure AD、Google Workspaceを含む8つの統合エンタープライズプラットフォーム間で、マルチホップエンティティの解決とクロスシステム相関を必要とする50のデータグラウンドタスクのプロダクショングレードベンチマークであるCross-Vendor Sola ISPM Benchmarkを紹介した。
また、最終回答の正しさだけでなく、明らかな根拠、構造的結合の忠実度、検索品質、SQL同値性も測定する評価フレームワークにも貢献する。
我々は,Sola AI Agentを5つのコンテキスト構成 – 注入メタデータから完全なスキーマ,グラフ,検索コンテキストに至るまで – で評価する。
その結果、構造化された関係コンテキストは回答の正しさを約34%改善し、探索クエリを全テストモデルで約70%削減し、最も大きな利得はクロスベンダグラフトポロジーによるものである。
以上の結果から,フロンティアのLLMには相当なセキュリティ推論能力があることが示唆された。
完全なコンテキスト下では、最高の構成は78%の回答正当性を達成し、完全な失敗を4%に削減する。
関連論文リスト
- Semantic Consensus: Process-Aware Conflict Detection and Resolution for Enterprise Multi-Agent LLM Systems [0.0]
エンタープライズAI自動化の主要なアーキテクチャとして,マルチエージェント大規模言語モデル(LLM)システムが急速に普及している。
生産は41%から86.7%の失敗率を示しており、その約79%は仕様や調整の問題に起因する失敗である。
6つのコンポーネントからなるプロセス認識フレームワークSemantic Consensus Framework(SCF)を提案する。
論文 参考訳(メタデータ) (2026-03-13T14:55:38Z) - QUARE: Multi-Agent Negotiation for Balancing Quality Attributes in Requirements Engineering [5.798725202578518]
QUIRE(Quality-Aware Requirements Engineering)は、要求分析を構造化交渉として定式化するマルチエージェントフレームワークである。
確立されたREベンチマーク(MARE, iReDev)と産業用自動運転仕様の5つのケーススタディを提示する。
論文 参考訳(メタデータ) (2026-03-12T13:03:01Z) - CORPGEN: Simulating Corporate Environments with Autonomous Digital Employees in Multi-Horizon Task Environments [1.6153514666902042]
実際の組織的な作業には、インターリーブ、依存関係、優先順位付けを伴って、多くの並行した長期タスクを管理する必要があります。
マルチ水平タスク環境(MHTEs: Multi-Horizon Task Environments: MHTEs): 数十のインターリーブタスクでコヒーレントな実行を必要とする問題クラス。
負荷が25%から100%になるにつれて、ベースラインCUAが16.7%から8.7%に低下する4つの障害モードを特定します。
マルチ水平ゴールアライメントのための階層的計画を通じて,これらの障害に対処するアーキテクチャに依存しないフレームワークであるCorpGenを提案する。
論文 参考訳(メタデータ) (2026-02-15T16:54:34Z) - QP-OneModel: A Unified Generative LLM for Multi-Task Query Understanding in Xiaohongshu Search [19.376785819604923]
QP-OneModelはSNS検索エンジンにおけるユーザの意図とコンテンツの供給を橋渡しする。
新規な高忠実な意味信号として意図的記述を生成する。
また、32Bモデルを7.60%精度で上回り、より優れた一般化を示す。
論文 参考訳(メタデータ) (2026-02-10T15:38:17Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。