論文の概要: ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks
- arxiv url: http://arxiv.org/abs/2502.05352v1
- Date: Fri, 07 Feb 2025 21:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:29:49.121180
- Title: ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks
- Title(参考訳): ITBench: さまざまな現実世界のIT自動化タスクにおけるAIエージェントの評価
- Authors: Saurabh Jha, Rohan Arora, Yuji Watanabe, Takumi Yanagawa, Yinfang Chen, Jackson Clark, Bhavya Bhavya, Mudit Verma, Harshit Kumar, Hirokuni Kitahara, Noah Zheutlin, Saki Takano, Divya Pathak, Felix George, Xinbo Wu, Bekir O. Turkkan, Gerard Vanloo, Michael Nidd, Ting Dai, Oishik Chatterjee, Pranjal Gupta, Suranjana Samanta, Pooja Aggarwal, Rong Lee, Pavankumar Murali, Jae-wook Ahn, Debanjana Kar, Ameet Rahane, Carlos Fonseca, Amit Paradkar, Yu Deng, Pratibha Moogi, Prateeti Mohapatra, Naoki Abe, Chandrasekhar Narayanaswami, Tianyin Xu, Lav R. Varshney, Ruchi Mahindru, Anca Sailer, Laura Shwartz, Daby Sow, Nicholas C. M. Fuller, Ruchir Puri,
- Abstract要約: ITBenchは、現実のIT自動化タスクに対処するためにAIエージェントをベンチマークするための体系的な方法論を提供するフレームワークである。
最初のリリースでは、SRE(Site Reliability Engineering)、CISO(Compliance and Security Operations)、FinOps(Financial Operations)の3つの重要な領域をターゲットにしています。
- 参考スコア(独自算出の注目度): 21.17241564540722
- License:
- Abstract: Realizing the vision of using AI agents to automate critical IT tasks depends on the ability to measure and understand effectiveness of proposed solutions. We introduce ITBench, a framework that offers a systematic methodology for benchmarking AI agents to address real-world IT automation tasks. Our initial release targets three key areas: Site Reliability Engineering (SRE), Compliance and Security Operations (CISO), and Financial Operations (FinOps). The design enables AI researchers to understand the challenges and opportunities of AI agents for IT automation with push-button workflows and interpretable metrics. ITBench includes an initial set of 94 real-world scenarios, which can be easily extended by community contributions. Our results show that agents powered by state-of-the-art models resolve only 13.8% of SRE scenarios, 25.2% of CISO scenarios, and 0% of FinOps scenarios. We expect ITBench to be a key enabler of AI-driven IT automation that is correct, safe, and fast.
- Abstract(参考訳): 重要なITタスクを自動化するためにAIエージェントを使用するというビジョンを実現するには、提案されたソリューションの有効性を測定し、理解する能力に依存する。
私たちは、現実世界のIT自動化タスクに対処するためにAIエージェントをベンチマークするための体系的な方法論を提供するフレームワークであるITBenchを紹介します。
最初のリリースでは、SRE(Site Reliability Engineering)、CISO(Compliance and Security Operations)、FinOps(Financial Operations)の3つの重要な領域をターゲットにしています。
この設計により、AI研究者はプッシュボタンワークフローと解釈可能なメトリクスを使用して、IT自動化のためのAIエージェントの課題と機会を理解することができる。
ITBenchには94の現実シナリオの初期セットが含まれており、コミュニティのコントリビューションによって簡単に拡張できる。
以上の結果から,最先端モデルによるエージェントは,SREシナリオの13.8%,CISOシナリオの25.2%,FinOpsシナリオの0%しか解決できないことがわかった。
私たちはITBenchが、正確で安全で高速なAI駆動IT自動化の重要な実現要因になることを期待しています。
関連論文リスト
- CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - AutoPenBench: Benchmarking Generative Agents for Penetration Testing [42.681170697805726]
本稿では,自動貫入試験における生成エージェント評価のためのオープンベンチマークであるAutoPenBenchを紹介する。
エージェントが攻撃しなければならない脆弱性のあるシステムを表す33のタスクを含む包括的フレームワークを提案する。
完全自律型と半自律型という2つのエージェントアーキテクチャをテストすることで,AutoPenBenchのメリットを示す。
論文 参考訳(メタデータ) (2024-10-04T08:24:15Z) - Towards the Terminator Economy: Assessing Job Exposure to AI through LLMs [10.844598404826355]
米国の雇用の3分の1はAIに強く依存している。
この露出は、2019年から2023年までの雇用と賃金の伸びと正の相関関係にある。
論文 参考訳(メタデータ) (2024-07-27T08:14:18Z) - The Foundations of Computational Management: A Systematic Approach to
Task Automation for the Integration of Artificial Intelligence into Existing
Workflows [55.2480439325792]
本稿では,タスク自動化の体系的アプローチである計算管理を紹介する。
この記事では、ワークフロー内でAIを実装するプロセスを開始するための、ステップバイステップの手順を3つ紹介する。
論文 参考訳(メタデータ) (2024-02-07T01:45:14Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities
and Challenges [60.56413461109281]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。
我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。
主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文 参考訳(メタデータ) (2023-04-10T15:38:12Z) - Enabling Automated Machine Learning for Model-Driven AI Engineering [60.09869520679979]
モデル駆動型ソフトウェアエンジニアリングとモデル駆動型AIエンジニアリングを実現するための新しいアプローチを提案する。
特に、私たちはAutomated MLをサポートし、AI集約システムの開発において、AIの深い知識のないソフトウェアエンジニアを支援します。
論文 参考訳(メタデータ) (2022-03-06T10:12:56Z) - TanksWorld: A Multi-Agent Environment for AI Safety Research [5.218815947097599]
複雑なタスクを実行できる人工知能を作成する能力は、AI対応システムの安全かつ確実な運用を保証する能力を急速に上回っている。
AIの安全性リスクを示す最近のシミュレーション環境は、特定の問題に比較的単純または狭く焦点を絞っている。
我々は,3つの重要な側面を持つAI安全研究環境として,AI安全タンクワールドを紹介した。
論文 参考訳(メタデータ) (2020-02-25T21:00:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。