Fugu-MT 論文翻訳(概要): Tackling Execution-Based Evaluation for NL2Bash

論文の概要: Tackling Execution-Based Evaluation for NL2Bash

arxiv url: http://arxiv.org/abs/2405.06807v1
Date: Fri, 10 May 2024 20:45:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 19:55:18.256661
Title: Tackling Execution-Based Evaluation for NL2Bash
Title（参考訳）: NL2Bashの処理実行に基づく評価
Authors: Ngoc Phuoc An Vo, Brent Paulovicks, Vadim Sheinin,
Abstract要約: 実行ベース評価(EE)は、システムにおけるモデル予測の実行出力と期待出力を比較することにより、予測されたコードを検証することができる。我々は、NL2Bashで人気のあるLarge Language Modelを評価するために、50のプロンプトを作成します。
参考スコア（独自算出の注目度）: 0.9176056742068815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given recent advancement of Large Language Models (LLMs), the task of translating from natural language prompts to different programming languages (code generation) attracts immense attention for wide application in different domains. Specially code generation for Bash (NL2Bash) is widely used to generate Bash scripts for automating different tasks, such as performance monitoring, compilation, system administration, system diagnostics, etc. Besides code generation, validating synthetic code is critical before using them for any application. Different methods for code validation are proposed, both direct (execution evaluation) and indirect validations (i.e. exact/partial match, BLEU score). Among these, Execution-based Evaluation (EE) can validate the predicted code by comparing the execution output of model prediction and expected output in system. However, designing and implementing such an execution-based evaluation system for NL2Bash is not a trivial task. In this paper, we present a machinery for execution-based evaluation for NL2Bash. We create a set of 50 prompts to evaluate some popular LLMs for NL2Bash. We also analyze several advantages and challenges of EE such as syntactically different yet semantically equivalent Bash scripts generated by different LLMs, or syntactically correct but semantically incorrect Bash scripts, and how we capture and process them correctly.
Abstract（参考訳）: 近年のLarge Language Models (LLMs) の発展に伴い、自然言語から異なるプログラミング言語(コード生成)に翻訳する作業は、異なるドメインでの幅広い応用において大きな注目を集めている。特に、Bash(NL2Bash)用のコード生成は、パフォーマンス監視、コンパイル、システム管理、システム診断など、さまざまなタスクを自動化するBashスクリプトを生成するために広く使用されている。コード生成の他に、どんなアプリケーションにも使用する前に、合成コードを検証することが重要である。直接的(実行評価)と間接的(正確な/部分一致、BLEUスコア)のバリデーションの異なる方法が提案されている。これらのうち、実行ベース評価(EE)は、システムにおけるモデル予測の実行出力と期待出力を比較することで、予測されたコードを検証することができる。しかし,このようなNL2Bashの実行ベース評価システムの設計と実装は簡単な作業ではない。本稿では,NL2Bashの実行に基づく評価手法を提案する。我々は、NL2Bashで人気のあるLLMを評価するために、50のプロンプトを作成します。我々はまた、異なるLLMによって生成された、構文的に異なるが意味的に等価なBashスクリプトや、構文的に正しいが、セマンティックに正しくないBashスクリプト、それらを正しくキャプチャして処理する方法など、EEのいくつかの利点と課題を分析します。

関連論文リスト

Black-Box Test Code Fault Localization Driven by Large Language Models and Execution Estimation [7.040370156228408]
システムテストコードの欠陥ローカライゼーションのための,完全に静的なLLM駆動型アプローチを提案する。私たちのメソッドは、テストの実行トレースを推定するために、単一障害実行ログを使用します。事故事例の工業的データセットを用いて, 機能, ブロック, ラインレベルの評価を行った。
論文参考訳（メタデータ） (2025-06-23T19:04:51Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文参考訳（メタデータ） (2024-08-25T07:10:36Z)
Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文参考訳（メタデータ） (2024-07-29T08:11:20Z)
NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。 NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文参考訳（メタデータ） (2024-04-23T01:46:32Z)
CodeMind: A Framework to Challenge Large Language Models for Code Reasoning [1.4027589547318842]
大規模言語モデル(LLM)のコード推論能力を評価するために設計されたフレームワークであるCodeMindを紹介する。 CodeMindは、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation [18.354576598908448]
LLM(Large Language Models)は、人間のプログラミング支援に優れた性能を発揮している。 LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文参考訳（メタデータ） (2023-11-14T23:18:52Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback [50.725076393314964]
標準的な強化学習環境として,インタラクティブコーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを紹介した。私たちのフレームワークは、言語とプラットフォームに依存しない、自己完結型のDocker環境を使用して、安全で再現可能な実行を提供します。我々は、異なるプロンプト戦略で構成された複数の最先端LLMを評価することにより、InterCodeの生存性をテストベッドとして示す。
論文参考訳（メタデータ） (2023-06-26T17:59:50Z)
xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval [32.60391966381949]
我々はこれまでで最大のマルチ言語マルチタスクベンチマークであるxCodeEvalを紹介した。コード理解、生成、翻訳、検索を含む合計7ドルのタスクが特徴だ。 xCodeEvalは実行ベースの評価を採用し、多言語コード実行エンジンであるExecEvalを提供する。
論文参考訳（メタデータ） (2023-03-06T10:08:51Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
NL2CMD: An Updated Workflow for Natural Language to Bash Commands Translation [2.099922236065961]
本稿では,Bashコマンドをスクラッチから合成する研究に2つの貢献をする。まず、対応する英語テキストからBashコマンドを生成するのに使用される最先端の翻訳モデルについて述べる。第2に、NL2CMDデータセットを新たに導入し、自動生成し、人間の介入を最小限に抑え、以前のデータセットの6倍以上の規模となる。
論文参考訳（メタデータ） (2023-02-15T18:31:36Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文参考訳（メタデータ） (2022-04-25T06:06:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。