論文の概要: Large Language Models for IT Automation Tasks: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2505.20505v1
- Date: Mon, 26 May 2025 20:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.281746
- Title: Large Language Models for IT Automation Tasks: Are We There Yet?
- Title(参考訳): IT自動化タスクのための大規模言語モデル: まだ存在するか?
- Authors: Md Mahadi Hassan, John Salvador, Akond Rahman, Santu Karmaker,
- Abstract要約: 既存のベンチマークは、IT自動化ツールのニーズを捉えるのに失敗する合成タスクに依存しています。
多様なタスクのベンチマークであるITAB(IT Automation Task Benchmark)を提示する。
14のオープンソース LLM を評価しましたが,いずれも 12% を越えるペースで Pass@10 を達成していません。
- 参考スコア(独自算出の注目度): 2.0499240875881997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs show promise in code generation, yet their effectiveness for IT automation tasks, particularly for tools like Ansible, remains understudied. Existing benchmarks rely primarily on synthetic tasks that fail to capture the needs of practitioners who use IT automation tools, such as Ansible. We present ITAB (IT Automation Task Benchmark), a benchmark of 126 diverse tasks (e.g., configuring servers, managing files) where each task accounts for state reconciliation: a property unique to IT automation tools. ITAB evaluates LLMs' ability to generate functional Ansible automation scripts via dynamic execution in controlled environments. We evaluate 14 open-source LLMs, none of which accomplish pass@10 at a rate beyond 12%. To explain these low scores, we analyze 1,411 execution failures across the evaluated LLMs and identify two main categories of prevalent semantic errors: failures in state reconciliation related reasoning (44.87% combined from variable (11.43%), host (11.84%), path(11.63%), and template (9.97%) issues) and deficiencies in module-specific execution knowledge (24.37% combined from Attribute and parameter (14.44%) and module (9.93%) errors). Our findings reveal key limitations in open-source LLMs' ability to track state changes and apply specialized module knowledge, indicating that reliable IT automation will require major advances in state reasoning and domain-specific execution understanding.
- Abstract(参考訳): LLMはコード生成の約束を示すが、IT自動化タスク、特にAnsibleのようなツールに対する有効性はまだ検討されていない。
既存のベンチマークは主に、AnsibleのようなIT自動化ツールを使用する実践者のニーズを捉えるのに失敗する合成タスクに依存しています。
ITAB(IT Automation Task Benchmark)は126の多様なタスク(サーバの設定、ファイル管理など)のベンチマークで、各タスクが状態整合(State Reciliation)を担っている。
ITABは、制御された環境で動的に実行することで、LLMが機能的なAnsibleオートメーションスクリプトを生成する能力を評価する。
14のオープンソース LLM を評価しましたが,いずれも 12% を越えるペースで Pass@10 を達成していません。
これらの低スコアを説明するために、評価されたLCMの1,411の実行障害を分析し、状態調整関連推論(44.87%は変数(11.43%)、ホスト(11.84%)、パス(11.63%)、テンプレート(9.97%)、モジュール固有の実行知識(24.37%は属性とパラメータ(14.44%)、モジュール(9.93%)の2つの主要なセマンティックエラーのカテゴリを特定する。
我々の発見は、オープンソースのLCMが状態変化を追跡し、特殊なモジュール知識を適用する能力に重要な制限があることを明らかにし、信頼性の高いIT自動化には、状態推論とドメイン固有の実行理解に大きな進歩が必要であることを示唆している。
関連論文リスト
- AutoEDA: Enabling EDA Flow Automation through Microservice-Based LLM Agents [15.41283323575065]
AutoEDAは、標準化されたスケーラブルな自然言語エクスペリエンスに特化したモデルコンテキストプロトコル(MCP)を通じて並列学習を活用する、EDA自動化のためのフレームワークである。
実験の結果、既存の手法と比較して、自動化の精度と効率が向上し、スクリプトの品質も向上した。
論文 参考訳(メタデータ) (2025-08-01T18:23:57Z) - TeleEval-OS: Performance evaluations of large language models for operations scheduling [34.77222716408485]
通信業務スケジューリング評価ベンチマーク(TeleEval-OS)を提案する。
このベンチマークは、13のサブタスクにわたる15のデータセットで構成され、インテリジェントチケット生成、インテリジェントチケットハンドリング、インテリジェントチケット閉鎖、インテリジェント評価の4つの主要な運用ステージを包括的にシミュレートする。
通信のスケジューリングにおけるそれらの能力は,基本的なNLP,知識Q&A,レポート生成,レポート解析の4つの階層レベルに分類される。
論文 参考訳(メタデータ) (2025-05-06T02:44:41Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks [21.17241564540722]
ITBenchは、現実のIT自動化タスクに対処するためにAIエージェントをベンチマークするための体系的な方法論を提供するフレームワークである。
最初のリリースでは、SRE(Site Reliability Engineering)、CISO(Compliance and Security Operations)、FinOps(Financial Operations)の3つの重要な領域をターゲットにしています。
論文 参考訳(メタデータ) (2025-02-07T21:46:52Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub [79.31134731122462]
オープンドメインのタスク解決能力を評価するためにOpenActベンチマークを導入します。
我々は,オープンドメインの進化するクエリに,GitHubから専門ツールを自律的に統合することで対処できる,新しいLLMベースのエージェントシステムであるOpenAgentを紹介する。
論文 参考訳(メタデータ) (2023-12-28T15:47:30Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。