論文の概要: Execution-Based Evaluation of Natural Language to Bash and PowerShell for Incident Remediation
- arxiv url: http://arxiv.org/abs/2405.06807v2
- Date: Mon, 16 Dec 2024 23:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:23.308481
- Title: Execution-Based Evaluation of Natural Language to Bash and PowerShell for Incident Remediation
- Title(参考訳): インシデント修復のためのバッシュとPowerShellに対する自然言語の実行に基づく評価
- Authors: Ngoc Phuoc An Vo, Brent Paulovicks, Vadim Sheinin,
- Abstract要約: 生成されたコードが構文的かつ意味論的に正しいか、意図した通りに正しく実行できるかを確認することは重要である。
大規模言語モデルによって生成されたコードの品質を評価するための現在の手法は、表面形状の類似度指標に大きく依存しています。
Bashを評価するための3つのテストスイートを作成した最初の実行ベース評価プラットフォームを提示する。
- 参考スコア(独自算出の注目度): 0.9176056742068815
- License:
- Abstract: Given recent advancements of Large Language Models (LLMs), code generation tasks attract immense attention for wide application in different domains. In an effort to evaluate and select a best model to automatically remediate system incidents discovered by Application Performance Monitoring (APM) platforms, it is crucial to verify if the generated code is syntactically and semantically correct, and whether it can be executed correctly as intended. However, current methods for evaluating the quality of code generated by LLMs heavily rely on surface form similarity metrics (e.g. BLEU, ROUGE, and exact/partial match) which have numerous limitations. In contrast, execution based evaluation focuses more on code functionality and does not constrain the code generation to any fixed solution. Nevertheless, designing and implementing such execution-based evaluation platform is not a trivial task. There are several works creating execution-based evaluation platforms for popular programming languages such as SQL, Python, Java, but limited or no attempts for scripting languages such as Bash and PowerShell. In this paper, we present the first execution-based evaluation platform in which we created three test suites (total 125 handcrafted test cases) to evaluate Bash (both single-line commands and multiple-line scripts) and PowerShell codes generated by LLMs. We benchmark seven closed and open-source LLMs using our platform with different techniques (zero-shot vs. few-shot learning).
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩を踏まえると、コード生成タスクは異なるドメインにおける広範囲のアプリケーションに対して大きな注目を集めている。
アプリケーションパフォーマンスモニタリング(APM)プラットフォームで発見されたシステムインシデントを自動的に修正する最良のモデルの評価と選択を行うため、生成されたコードが構文的に、意味的に正しいか、意図した通りに正しく実行できるかを検証することが不可欠である。
しかし、LLMによって生成されたコードの品質を評価するための現在の手法は、多くの制限がある表面形状の類似度(例えばBLEU、ROUGE、精度/部分マッチング)に大きく依存している。
対照的に、実行ベースの評価はコード機能に重点を置いており、コード生成を固定されたソリューションに制限しない。
それでも、このような実行ベースの評価プラットフォームの設計と実装は簡単な作業ではありません。
SQL、Python、Javaのような一般的なプログラミング言語向けの実行ベースの評価プラットフォームを作成する作業はいくつかあるが、BashやPowerShellのようなスクリプト言語に対する試みは限定的または全く行われていない。
本稿では,Bash (単行コマンドと複数行スクリプトの両方) と LLM が生成するPowerShell コードを評価するための3つのテストスイート (Total 125手作りテストケース) を作成した最初の実行ベース評価プラットフォームを提案する。
私たちは、異なる技術(ゼロショット対数ショットの学習)でプラットフォームを使用して、7つのクローズドでオープンソースのLCMをベンチマークします。
関連論文リスト
- NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - CodeMind: A Framework to Challenge Large Language Models for Code Reasoning [1.4027589547318842]
大規模言語モデル(LLM)のコード推論能力を評価するために設計されたフレームワークであるCodeMindを紹介する。
CodeMindは、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - NL2CMD: An Updated Workflow for Natural Language to Bash Commands
Translation [2.099922236065961]
本稿では,Bashコマンドをスクラッチから合成する研究に2つの貢献をする。
まず、対応する英語テキストからBashコマンドを生成するのに使用される最先端の翻訳モデルについて述べる。
第2に、NL2CMDデータセットを新たに導入し、自動生成し、人間の介入を最小限に抑え、以前のデータセットの6倍以上の規模となる。
論文 参考訳(メタデータ) (2023-02-15T18:31:36Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。