論文の概要: ScriptSmith: A Unified LLM Framework for Enhancing IT Operations via Automated Bash Script Generation, Assessment, and Refinement
- arxiv url: http://arxiv.org/abs/2409.17166v1
- Date: Thu, 12 Sep 2024 15:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-09-30 06:33:03.585830
- Title: ScriptSmith: A Unified LLM Framework for Enhancing IT Operations via Automated Bash Script Generation, Assessment, and Refinement
- Title(参考訳): ScriptSmith: 自動Bashスクリプト生成、アセスメント、リファインメントを通じてIT運用を強化する統一LLMフレームワーク
- Authors: Oishik Chatterjee, Pooja Aggarwal, Suranjana Samanta, Ting Dai, Prateeti Mohapatra, Debanjana Kar, Ruchi Mahindru, Steve Barbieri, Eugen Postea, Brad Blancett, Arthur De Magalhaes,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を用いて,スクリプト生成,評価,改良のためのアクション自動化の革新的アプローチを提案する。
実験では、SREで一般的に使用されるツールであるBashスクリプトにフォーカスし、100タスクのCodeSiftデータセットと153タスクのInterCodeデータセットを含む。
結果は、このフレームワークがスクリプト生成において7~10%の全体的な改善を示していることを示している。
- 参考スコア(独自算出の注目度): 3.685819758139424
- License:
- Abstract: In the rapidly evolving landscape of site reliability engineering (SRE), the demand for efficient and effective solutions to manage and resolve issues in site and cloud applications is paramount. This paper presents an innovative approach to action automation using large language models (LLMs) for script generation, assessment, and refinement. By leveraging the capabilities of LLMs, we aim to significantly reduce the human effort involved in writing and debugging scripts, thereby enhancing the productivity of SRE teams. Our experiments focus on Bash scripts, a commonly used tool in SRE, and involve the CodeSift dataset of 100 tasks and the InterCode dataset of 153 tasks. The results show that LLMs can automatically assess and refine scripts efficiently, reducing the need for script validation in an execution environment. Results demonstrate that the framework shows an overall improvement of 7-10% in script generation.
- Abstract(参考訳): サイト信頼性エンジニアリング(SRE)の急速な発展の中で、サイトおよびクラウドアプリケーションの問題を管理し解決するための効率的で効果的なソリューションの需要が最重要である。
本稿では,大規模言語モデル(LLM)を用いて,スクリプト生成,評価,改良のためのアクション自動化の革新的アプローチを提案する。
LLMの能力を活用することで、スクリプトの作成とデバッグに関わる人的労力を大幅に削減し、SREチームの生産性を高めることを目指している。
実験では、SREで一般的に使用されるツールであるBashスクリプトにフォーカスし、100タスクのCodeSiftデータセットと153タスクのInterCodeデータセットを含む。
その結果,LLMはスクリプトを効率よく評価・精査し,実行環境におけるスクリプト検証の必要性を低減できることがわかった。
結果は、このフレームワークがスクリプト生成において7~10%の全体的な改善を示していることを示している。
関連論文リスト
- BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
Benchは、大規模言語モデルに対して、139のライブラリと7つのドメインから1,140のきめ細かいプログラミングタスクのためのツールとして、複数の関数呼び出しを実行するためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - AvaTaR: Optimizing LLM Agents for Tool-Assisted Knowledge Retrieval [93.96463520716759]
大言語モデル(LLM)エージェントは、外部のツールや知識を活用して精度を高め、幻覚を減らすという印象的な能力を示した。
本稿では、LLMエージェントを最適化して提供するツールを効果的に利用し、与えられたタスク/ドメインの性能を向上させる新しいフレームワークであるAvaTaRを紹介する。
AvaTaRは、4つの課題にまたがる最先端のアプローチを一貫して上回り、新規事例に適用した場合に強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-06-17T04:20:02Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - Application of LLM Agents in Recruitment: A Novel Framework for Resume Screening [0.0]
本稿では,新しいLarge Language Models (LLM) ベースのエージェントフレームワークについて紹介する。
我々のフレームワークは、大規模なデータセットから各履歴を効率的に要約し、評価する能力において、異なる。
その結果,自動再試行フレームワークは従来の手作業よりも11倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-01-16T12:30:56Z) - ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation [30.693616802332745]
本稿では,ユーザが要求するタスクに応じて,Windowsプラットフォーム上でマウスとキーボードを操作することができるかどうかを評価するための新しいベンチマーク,AssistGUIを提案する。
本稿では,AIエージェントによって駆動される高度なGUIを組み込んだ高度なアクタ・クリティカル・フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T15:28:38Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [85.3879908356586]
タスク自動化における大規模言語モデルの能力を評価するためにTaskBenchを導入します。
高品質な評価データセットを生成するために,ツールグラフの概念を導入する。
また,タスク分解,ツールの実行,パラメータ予測など,さまざまな側面からLCMの能力を評価するためのTaskEvalを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LLM for Test Script Generation and Migration: Challenges, Capabilities,
and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。
既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。
本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文 参考訳(メタデータ) (2023-09-24T07:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。