論文の概要: ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks
- arxiv url: http://arxiv.org/abs/2502.05352v1
- Date: Fri, 07 Feb 2025 21:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:49.121180
- Title: ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks
- Title(参考訳): ITBench: さまざまな現実世界のIT自動化タスクにおけるAIエージェントの評価
- Authors: Saurabh Jha, Rohan Arora, Yuji Watanabe, Takumi Yanagawa, Yinfang Chen, Jackson Clark, Bhavya Bhavya, Mudit Verma, Harshit Kumar, Hirokuni Kitahara, Noah Zheutlin, Saki Takano, Divya Pathak, Felix George, Xinbo Wu, Bekir O. Turkkan, Gerard Vanloo, Michael Nidd, Ting Dai, Oishik Chatterjee, Pranjal Gupta, Suranjana Samanta, Pooja Aggarwal, Rong Lee, Pavankumar Murali, Jae-wook Ahn, Debanjana Kar, Ameet Rahane, Carlos Fonseca, Amit Paradkar, Yu Deng, Pratibha Moogi, Prateeti Mohapatra, Naoki Abe, Chandrasekhar Narayanaswami, Tianyin Xu, Lav R. Varshney, Ruchi Mahindru, Anca Sailer, Laura Shwartz, Daby Sow, Nicholas C. M. Fuller, Ruchir Puri,
- Abstract要約: ITBenchは、現実のIT自動化タスクに対処するためにAIエージェントをベンチマークするための体系的な方法論を提供するフレームワークである。
最初のリリースでは、SRE(Site Reliability Engineering)、CISO(Compliance and Security Operations)、FinOps(Financial Operations)の3つの重要な領域をターゲットにしています。
- 参考スコア(独自算出の注目度): 21.17241564540722
- License:
- Abstract: Realizing the vision of using AI agents to automate critical IT tasks depends on the ability to measure and understand effectiveness of proposed solutions. We introduce ITBench, a framework that offers a systematic methodology for benchmarking AI agents to address real-world IT automation tasks. Our initial release targets three key areas: Site Reliability Engineering (SRE), Compliance and Security Operations (CISO), and Financial Operations (FinOps). The design enables AI researchers to understand the challenges and opportunities of AI agents for IT automation with push-button workflows and interpretable metrics. ITBench includes an initial set of 94 real-world scenarios, which can be easily extended by community contributions. Our results show that agents powered by state-of-the-art models resolve only 13.8% of SRE scenarios, 25.2% of CISO scenarios, and 0% of FinOps scenarios. We expect ITBench to be a key enabler of AI-driven IT automation that is correct, safe, and fast.
- Abstract(参考訳): 重要なITタスクを自動化するためにAIエージェントを使用するというビジョンを実現するには、提案されたソリューションの有効性を測定し、理解する能力に依存する。
私たちは、現実世界のIT自動化タスクに対処するためにAIエージェントをベンチマークするための体系的な方法論を提供するフレームワークであるITBenchを紹介します。
最初のリリースでは、SRE(Site Reliability Engineering)、CISO(Compliance and Security Operations)、FinOps(Financial Operations)の3つの重要な領域をターゲットにしています。
この設計により、AI研究者はプッシュボタンワークフローと解釈可能なメトリクスを使用して、IT自動化のためのAIエージェントの課題と機会を理解することができる。
ITBenchには94の現実シナリオの初期セットが含まれており、コミュニティのコントリビューションによって簡単に拡張できる。
以上の結果から,最先端モデルによるエージェントは,SREシナリオの13.8%,CISOシナリオの25.2%,FinOpsシナリオの0%しか解決できないことがわかった。
私たちはITBenchが、正確で安全で高速なAI駆動IT自動化の重要な実現要因になることを期待しています。
関連論文リスト
- Empowering AIOps: Leveraging Large Language Models for IT Operations Management [0.6752538702870792]
従来の予測機械学習モデルとLarge Language Models(LLMs)のような生成AI技術を統合することを目指しています。
LLMは、システムログやインシデントレポート、技術ドキュメントなど、膨大な量の非構造化データの処理と分析を可能にする。
我々は,AIOpsにおける永続的な課題に対処し,IT運用管理の能力を高めるための革新的な手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T19:17:46Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [52.46737975742287]
私たちは小さなソフトウェア企業環境を模倣したデータによる自己完結型環境を構築します。
最も競争力のあるエージェントでは、タスクの24%が自律的に完了できます。
これは、LMエージェントによるタスク自動化に関するニュアンスな絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities
and Challenges [60.56413461109281]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。
我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。
主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文 参考訳(メタデータ) (2023-04-10T15:38:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。