論文の概要: Large Language Models for IT Automation Tasks: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2505.20505v1
- Date: Mon, 26 May 2025 20:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.281746
- Title: Large Language Models for IT Automation Tasks: Are We There Yet?
- Title(参考訳): IT自動化タスクのための大規模言語モデル: まだ存在するか?
- Authors: Md Mahadi Hassan, John Salvador, Akond Rahman, Santu Karmaker,
- Abstract要約: 既存のベンチマークは、IT自動化ツールのニーズを捉えるのに失敗する合成タスクに依存しています。
多様なタスクのベンチマークであるITAB(IT Automation Task Benchmark)を提示する。
14のオープンソース LLM を評価しましたが,いずれも 12% を越えるペースで Pass@10 を達成していません。
- 参考スコア(独自算出の注目度): 2.0499240875881997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs show promise in code generation, yet their effectiveness for IT automation tasks, particularly for tools like Ansible, remains understudied. Existing benchmarks rely primarily on synthetic tasks that fail to capture the needs of practitioners who use IT automation tools, such as Ansible. We present ITAB (IT Automation Task Benchmark), a benchmark of 126 diverse tasks (e.g., configuring servers, managing files) where each task accounts for state reconciliation: a property unique to IT automation tools. ITAB evaluates LLMs' ability to generate functional Ansible automation scripts via dynamic execution in controlled environments. We evaluate 14 open-source LLMs, none of which accomplish pass@10 at a rate beyond 12%. To explain these low scores, we analyze 1,411 execution failures across the evaluated LLMs and identify two main categories of prevalent semantic errors: failures in state reconciliation related reasoning (44.87% combined from variable (11.43%), host (11.84%), path(11.63%), and template (9.97%) issues) and deficiencies in module-specific execution knowledge (24.37% combined from Attribute and parameter (14.44%) and module (9.93%) errors). Our findings reveal key limitations in open-source LLMs' ability to track state changes and apply specialized module knowledge, indicating that reliable IT automation will require major advances in state reasoning and domain-specific execution understanding.
- Abstract(参考訳): LLMはコード生成の約束を示すが、IT自動化タスク、特にAnsibleのようなツールに対する有効性はまだ検討されていない。
既存のベンチマークは主に、AnsibleのようなIT自動化ツールを使用する実践者のニーズを捉えるのに失敗する合成タスクに依存しています。
ITAB(IT Automation Task Benchmark)は126の多様なタスク(サーバの設定、ファイル管理など)のベンチマークで、各タスクが状態整合(State Reciliation)を担っている。
ITABは、制御された環境で動的に実行することで、LLMが機能的なAnsibleオートメーションスクリプトを生成する能力を評価する。
14のオープンソース LLM を評価しましたが,いずれも 12% を越えるペースで Pass@10 を達成していません。
これらの低スコアを説明するために、評価されたLCMの1,411の実行障害を分析し、状態調整関連推論(44.87%は変数(11.43%)、ホスト(11.84%)、パス(11.63%)、テンプレート(9.97%)、モジュール固有の実行知識(24.37%は属性とパラメータ(14.44%)、モジュール(9.93%)の2つの主要なセマンティックエラーのカテゴリを特定する。
我々の発見は、オープンソースのLCMが状態変化を追跡し、特殊なモジュール知識を適用する能力に重要な制限があることを明らかにし、信頼性の高いIT自動化には、状態推論とドメイン固有の実行理解に大きな進歩が必要であることを示唆している。
関連論文リスト
- TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。