論文の概要: Interactive Code Generation via Test-Driven User-Intent Formalization
- arxiv url: http://arxiv.org/abs/2208.05950v2
- Date: Wed, 4 Oct 2023 01:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 22:51:28.974121
- Title: Interactive Code Generation via Test-Driven User-Intent Formalization
- Title(参考訳): テスト駆動ユーザインテント形式によるインタラクティブコード生成
- Authors: Shuvendu K. Lahiri and Sarah Fakhoury and Aaditya Naik and Georgios
Sakkas and Saikat Chakraborty and Madanlal Musuvathi and Piali Choudhury and
Curtis von Veh and Jeevana Priya Inala and Chenglong Wang and Jianfeng Gao
- Abstract要約: 大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
- 参考スコア(独自算出の注目度): 60.90035204567797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown great potential in automating
significant aspects of coding by producing natural code from informal natural
language (NL) intent. However, when interacting with LLMs, users have no
guarantees that the code suggestions produced correctly satisfy the intent they
provided. In fact, it is hard to define a notion of correctness since natural
language can be ambiguous and lacks a formal semantics.
In this paper, we propose the workflow of {\it interactive test-driven code
generation}, which leverages lightweight user feedback to (a) formalize the
user intent using generated tests that can be useful for debugging, and (b)
produce an improved set of code suggestions by pruning and ranking candidate
code suggestions. We describe a language-agnostic abstract algorithm and a
concrete implementation TiCoder. We perform an automated evaluation of TiCoder
on the \emph{MBPP} and \emph{HumanEval} code generation benchmarks. Our results
are promising with using the OpenAI Codex LLM: our best algorithm improves the
\passk{1} code generation accuracy (in absolute percentages) between $22.49\%$
to $37.71\%$ for MBPP and between $24.79\%$ to $53.98\%$ for HumanEval using
between 1 to 5 simulated user queries.
- Abstract(参考訳): 大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図から自然言語を生成することによって、コーディングの重要な側面を自動化する大きな可能性を示している。
しかし、llmと対話する場合、ユーザは、コード提案が提供した意図を正しく満足させる保証を持っていません。
実際、自然言語は曖昧で形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
本稿では,軽量ユーザフィードバックを活用した対話型テスト駆動コード生成のワークフローを提案する。
(a)デバッグに有用な生成テストを使用して、ユーザの意図を形式化する、
b) 候補コード提案のプルーニングとランク付けにより,改良されたコード提案セットを生成する。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
我々は、コード生成ベンチマークである \emph{mbpp} と \emph{humaneval} で ticoder の自動評価を行う。
我々の最良のアルゴリズムは、1から5のシミュレートされたユーザクエリを使用して、22.49 %$から37.71 %$ for MBPP、24.79 %$から53.98 %$ for HumanEvalのコード生成精度(絶対パーセンテージ)を改善します。
関連論文リスト
- How Do Humans Write Code? Large Models Do It the Same Way Too [2.234207140391484]
大規模言語モデル(LLM)は数値計算を行う際にしばしば誤りを犯す。
HTL(Human-Think Language)を提案する。
論文 参考訳(メタデータ) (2024-02-24T05:40:01Z) - Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for
Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。
本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-16T05:09:58Z) - Leveraging Generative AI: Improving Software Metadata Classification
with Generated Code-Comment Pairs [0.0]
ソフトウェア開発では、コードの理解とコラボレーションを強化する上で、コードコメントが重要な役割を果たす。
本研究では,コードコメントを「有用」あるいは「有用でない」と客観的に分類する課題について論じる。
本稿では,この分類プロセスを自動化するために,コンテキスト化された埋め込み,特にBERTを利用する新しいソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-14T12:09:43Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - Prompting with Pseudo-Code Instructions [12.166296720125187]
我々は、分類、QA、生成言語タスクにまたがる132のタスクに対して、擬似コードプロンプトのデータセットを作成する。
これらのプロンプトと自然言語の対応を利用して, BLOOM と CodeGen の2つの LLM ファミリ上での性能について検討する。
実験の結果, 擬似符号命令を用いることで, 分類作業におけるF1得点の平均7~16ポイント, ROUGE-L得点の12~38%の増加(絶対値)が得られた。
論文 参考訳(メタデータ) (2023-05-19T16:25:01Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。
そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-04-25T06:06:08Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z) - Automatic Code Generation using Pre-Trained Language Models [0.0]
学習済み言語モデルの上に構築されたPython言語におけるコード生成のためのエンドツーエンドの機械学習モデルを提案する。
本研究では,BLEUスコア0.22を達成し,適切なシーケンス・ツー・シーケンスベースラインよりも46%向上した,微調整モデルがコード生成タスクで良好に動作できることを実証する。
論文 参考訳(メタデータ) (2021-02-21T07:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。