論文の概要: LLM-Supported Natural Language to Bash Translation
- arxiv url: http://arxiv.org/abs/2502.06858v1
- Date: Fri, 07 Feb 2025 19:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:20.931685
- Title: LLM-Supported Natural Language to Bash Translation
- Title(参考訳): LLM-Supported Natural Language to Bash Translation
- Authors: Finnian Westenfelder, Erik Hemberg, Miguel Tulla, Stephen Moskal, Una-May O'Reilly, Silviu Chiricescu,
- Abstract要約: 本稿では,コマンド実行とコマンド出力の評価を組み合わせた機能等価性を提案する。
解析,文脈内学習,重み付き学習,制約付き復号化により,NL2SHの精度が最大32%向上することを示した。
- 参考スコア(独自算出の注目度): 3.944966059637878
- License:
- Abstract: The Bourne-Again Shell (Bash) command-line interface for Linux systems has complex syntax and requires extensive specialized knowledge. Using the natural language to Bash command (NL2SH) translation capabilities of large language models (LLMs) for command composition circumvents these issues. However, the NL2SH performance of LLMs is difficult to assess due to inaccurate test data and unreliable heuristics for determining the functional equivalence of Bash commands. We present a manually verified test dataset of 600 instruction-command pairs and a training dataset of 40,939 pairs, increasing the size of previous datasets by 441% and 135%, respectively. Further, we present a novel functional equivalence heuristic that combines command execution with LLM evaluation of command outputs. Our heuristic can determine the functional equivalence of two Bash commands with 95% confidence, a 16% increase over previous heuristics. Evaluation of popular LLMs using our test dataset and heuristic demonstrates that parsing, in-context learning, in-weight learning, and constrained decoding can improve NL2SH accuracy by up to 32%. Our findings emphasize the importance of dataset quality, execution-based evaluation and translation method for advancing NL2SH translation. Our code is available at https://github.com/westenfelder/NL2SH
- Abstract(参考訳): Bourne-Again Shell (Bash) というLinuxシステム用のコマンドラインインタフェースは複雑な構文を持ち、豊富な専門知識を必要とする。
自然言語をBashコマンド(NL2SH)に使用すると、大きな言語モデル(LLM)の翻訳機能がこれらの問題を回避できる。
しかしながら、LLMのNL2SH性能は、Bashコマンドの機能的等価性を決定するための不正確なテストデータと信頼できないヒューリスティックのため評価が難しい。
我々は,600対の命令コマンドペアと40,939対のトレーニングデータセットを手動で検証し,それぞれ441%,135%のデータセットのサイズを拡大した。
さらに,コマンド実行とLLMによるコマンド出力の評価を組み合わせた関数同値ヒューリスティックを提案する。
我々のヒューリスティックは、95%の信頼性を持つ2つのBashコマンドの機能的等価性を決定することができる。
テストデータセットとヒューリスティックを用いたLLMの評価により,解析,文脈内学習,非重み付き学習,制約付き復号化がNL2SHの精度を最大32%向上することを示した。
本研究は,NL2SH翻訳におけるデータセットの品質,実行ベース評価,翻訳手法の重要性を強調した。
私たちのコードはhttps://github.com/westenfelder/NL2SHで利用可能です。
関連論文リスト
- Execution-Based Evaluation of Natural Language to Bash and PowerShell for Incident Remediation [0.9176056742068815]
生成されたコードが構文的かつ意味論的に正しいか、意図した通りに正しく実行できるかを確認することは重要である。
大規模言語モデルによって生成されたコードの品質を評価するための現在の手法は、表面形状の類似度指標に大きく依存しています。
Bashを評価するための3つのテストスイートを作成した最初の実行ベース評価プラットフォームを提示する。
論文 参考訳(メタデータ) (2024-05-10T20:45:34Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。
我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。
本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-07-10T08:15:40Z) - CoTran: An LLM-based Code Translator using Reinforcement Learning with Feedback from Compiler and Symbolic Execution [6.72474166614441]
既存のコード翻訳法では、翻訳されたコードが確実にコンパイルされるか、入力されたコードに実質的な機能的等価性を持つことを保証するための訓練が欠如している。
本研究では、強化学習、コンパイラフィードバック、シンボリック実行(シンジケート)ベースのテストフィードバックを用いて、LLMを微調整する。
我々は、CoTranと、人書きトランスパイラ、LLMベースの翻訳ツール、ChatGPTを含む14のコード翻訳ツールを比較した広範な実験を行った。
論文 参考訳(メタデータ) (2023-06-11T19:47:52Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - NL2CMD: An Updated Workflow for Natural Language to Bash Commands
Translation [2.099922236065961]
本稿では,Bashコマンドをスクラッチから合成する研究に2つの貢献をする。
まず、対応する英語テキストからBashコマンドを生成するのに使用される最先端の翻訳モデルについて述べる。
第2に、NL2CMDデータセットを新たに導入し、自動生成し、人間の介入を最小限に抑え、以前のデータセットの6倍以上の規模となる。
論文 参考訳(メタデータ) (2023-02-15T18:31:36Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。