論文の概要: Tackling Execution-Based Evaluation for NL2Bash
- arxiv url: http://arxiv.org/abs/2405.06807v1
- Date: Fri, 10 May 2024 20:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 19:55:18.256661
- Title: Tackling Execution-Based Evaluation for NL2Bash
- Title(参考訳): NL2Bashの処理実行に基づく評価
- Authors: Ngoc Phuoc An Vo, Brent Paulovicks, Vadim Sheinin,
- Abstract要約: 実行ベース評価(EE)は、システムにおけるモデル予測の実行出力と期待出力を比較することにより、予測されたコードを検証することができる。
我々は、NL2Bashで人気のあるLarge Language Modelを評価するために、50のプロンプトを作成します。
- 参考スコア(独自算出の注目度): 0.9176056742068815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given recent advancement of Large Language Models (LLMs), the task of translating from natural language prompts to different programming languages (code generation) attracts immense attention for wide application in different domains. Specially code generation for Bash (NL2Bash) is widely used to generate Bash scripts for automating different tasks, such as performance monitoring, compilation, system administration, system diagnostics, etc. Besides code generation, validating synthetic code is critical before using them for any application. Different methods for code validation are proposed, both direct (execution evaluation) and indirect validations (i.e. exact/partial match, BLEU score). Among these, Execution-based Evaluation (EE) can validate the predicted code by comparing the execution output of model prediction and expected output in system. However, designing and implementing such an execution-based evaluation system for NL2Bash is not a trivial task. In this paper, we present a machinery for execution-based evaluation for NL2Bash. We create a set of 50 prompts to evaluate some popular LLMs for NL2Bash. We also analyze several advantages and challenges of EE such as syntactically different yet semantically equivalent Bash scripts generated by different LLMs, or syntactically correct but semantically incorrect Bash scripts, and how we capture and process them correctly.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の発展に伴い、自然言語から異なるプログラミング言語(コード生成)に翻訳する作業は、異なるドメインでの幅広い応用において大きな注目を集めている。
特に、Bash(NL2Bash)用のコード生成は、パフォーマンス監視、コンパイル、システム管理、システム診断など、さまざまなタスクを自動化するBashスクリプトを生成するために広く使用されている。
コード生成の他に、どんなアプリケーションにも使用する前に、合成コードを検証することが重要である。
直接的(実行評価)と間接的(正確な/部分一致、BLEUスコア)のバリデーションの異なる方法が提案されている。
これらのうち、実行ベース評価(EE)は、システムにおけるモデル予測の実行出力と期待出力を比較することで、予測されたコードを検証することができる。
しかし,このようなNL2Bashの実行ベース評価システムの設計と実装は簡単な作業ではない。
本稿では,NL2Bashの実行に基づく評価手法を提案する。
我々は、NL2Bashで人気のあるLLMを評価するために、50のプロンプトを作成します。
我々はまた、異なるLLMによって生成された、構文的に異なるが意味的に等価なBashスクリプトや、構文的に正しいが、セマンティックに正しくないBashスクリプト、それらを正しくキャプチャして処理する方法など、EEのいくつかの利点と課題を分析します。
関連論文リスト
- NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - CodeMind: A Framework to Challenge Large Language Models for Code Reasoning [1.4027589547318842]
大規模言語モデル(LLM)のコード推論能力を評価するために設計されたフレームワークであるCodeMindを紹介する。
CodeMindは、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - NL2CMD: An Updated Workflow for Natural Language to Bash Commands
Translation [2.099922236065961]
本稿では,Bashコマンドをスクラッチから合成する研究に2つの貢献をする。
まず、対応する英語テキストからBashコマンドを生成するのに使用される最先端の翻訳モデルについて述べる。
第2に、NL2CMDデータセットを新たに導入し、自動生成し、人間の介入を最小限に抑え、以前のデータセットの6倍以上の規模となる。
論文 参考訳(メタデータ) (2023-02-15T18:31:36Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。