論文の概要: Interactive Code Generation via Test-Driven User-Intent Formalization
- arxiv url: http://arxiv.org/abs/2208.05950v2
- Date: Wed, 4 Oct 2023 01:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 22:51:28.974121
- Title: Interactive Code Generation via Test-Driven User-Intent Formalization
- Title(参考訳): テスト駆動ユーザインテント形式によるインタラクティブコード生成
- Authors: Shuvendu K. Lahiri and Sarah Fakhoury and Aaditya Naik and Georgios
Sakkas and Saikat Chakraborty and Madanlal Musuvathi and Piali Choudhury and
Curtis von Veh and Jeevana Priya Inala and Chenglong Wang and Jianfeng Gao
- Abstract要約: 大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
- 参考スコア(独自算出の注目度): 60.90035204567797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown great potential in automating
significant aspects of coding by producing natural code from informal natural
language (NL) intent. However, when interacting with LLMs, users have no
guarantees that the code suggestions produced correctly satisfy the intent they
provided. In fact, it is hard to define a notion of correctness since natural
language can be ambiguous and lacks a formal semantics.
In this paper, we propose the workflow of {\it interactive test-driven code
generation}, which leverages lightweight user feedback to (a) formalize the
user intent using generated tests that can be useful for debugging, and (b)
produce an improved set of code suggestions by pruning and ranking candidate
code suggestions. We describe a language-agnostic abstract algorithm and a
concrete implementation TiCoder. We perform an automated evaluation of TiCoder
on the \emph{MBPP} and \emph{HumanEval} code generation benchmarks. Our results
are promising with using the OpenAI Codex LLM: our best algorithm improves the
\passk{1} code generation accuracy (in absolute percentages) between $22.49\%$
to $37.71\%$ for MBPP and between $24.79\%$ to $53.98\%$ for HumanEval using
between 1 to 5 simulated user queries.
- Abstract(参考訳): 大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図から自然言語を生成することによって、コーディングの重要な側面を自動化する大きな可能性を示している。
しかし、llmと対話する場合、ユーザは、コード提案が提供した意図を正しく満足させる保証を持っていません。
実際、自然言語は曖昧で形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
本稿では,軽量ユーザフィードバックを活用した対話型テスト駆動コード生成のワークフローを提案する。
(a)デバッグに有用な生成テストを使用して、ユーザの意図を形式化する、
b) 候補コード提案のプルーニングとランク付けにより,改良されたコード提案セットを生成する。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
我々は、コード生成ベンチマークである \emph{mbpp} と \emph{humaneval} で ticoder の自動評価を行う。
我々の最良のアルゴリズムは、1から5のシミュレートされたユーザクエリを使用して、22.49 %$から37.71 %$ for MBPP、24.79 %$から53.98 %$ for HumanEvalのコード生成精度(絶対パーセンテージ)を改善します。
関連論文リスト
- LLM-Based Test-Driven Interactive Code Generation: User Study and Empirical Evaluation [13.800675921118348]
本稿では,ガイド付き意図明確化のための対話型ワークフローTiCoderを提案する。
コード生成精度を向上させるためのワークフローの有効性を実証的に評価する。
我々は,5つのユーザインタラクション内において,データセットと全LLMのパス@1コード生成精度が平均45.97%向上したことを観察した。
論文 参考訳(メタデータ) (2024-04-15T19:16:32Z) - Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。
その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。
論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文 参考訳(メタデータ) (2024-04-11T08:30:46Z) - JumpCoder: Go Beyond Autoregressive Coder via Online Modification [18.9350072969148]
JumpCoderは、人間に似たオンライン修正と非逐次生成が可能な新しいモデルに依存しないフレームワークで、LLMを増強する。
JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。
論文 参考訳(メタデータ) (2024-01-15T18:04:29Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Prompting with Pseudo-Code Instructions [12.166296720125187]
我々は、分類、QA、生成言語タスクにまたがる132のタスクに対して、擬似コードプロンプトのデータセットを作成する。
これらのプロンプトと自然言語の対応を利用して, BLOOM と CodeGen の2つの LLM ファミリ上での性能について検討する。
実験の結果, 擬似符号命令を用いることで, 分類作業におけるF1得点の平均7~16ポイント, ROUGE-L得点の12~38%の増加(絶対値)が得られた。
論文 参考訳(メタデータ) (2023-05-19T16:25:01Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Automatic Code Generation using Pre-Trained Language Models [0.0]
学習済み言語モデルの上に構築されたPython言語におけるコード生成のためのエンドツーエンドの機械学習モデルを提案する。
本研究では,BLEUスコア0.22を達成し,適切なシーケンス・ツー・シーケンスベースラインよりも46%向上した,微調整モデルがコード生成タスクで良好に動作できることを実証する。
論文 参考訳(メタデータ) (2021-02-21T07:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。