Fugu-MT 論文翻訳(概要): Interactive Code Generation via Test-Driven User-Intent Formalization

論文の概要: Interactive Code Generation via Test-Driven User-Intent Formalization

arxiv url: http://arxiv.org/abs/2208.05950v2
Date: Wed, 4 Oct 2023 01:53:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 22:51:28.974121
Title: Interactive Code Generation via Test-Driven User-Intent Formalization
Title（参考訳）: テスト駆動ユーザインテント形式によるインタラクティブコード生成
Authors: Shuvendu K. Lahiri and Sarah Fakhoury and Aaditya Naik and Georgios Sakkas and Saikat Chakraborty and Madanlal Musuvathi and Piali Choudhury and Curtis von Veh and Jeevana Priya Inala and Chenglong Wang and Jianfeng Gao
Abstract要約: 大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
参考スコア（独自算出の注目度）: 60.90035204567797
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown great potential in automating significant aspects of coding by producing natural code from informal natural language (NL) intent. However, when interacting with LLMs, users have no guarantees that the code suggestions produced correctly satisfy the intent they provided. In fact, it is hard to define a notion of correctness since natural language can be ambiguous and lacks a formal semantics. In this paper, we propose the workflow of {\it interactive test-driven code generation}, which leverages lightweight user feedback to (a) formalize the user intent using generated tests that can be useful for debugging, and (b) produce an improved set of code suggestions by pruning and ranking candidate code suggestions. We describe a language-agnostic abstract algorithm and a concrete implementation TiCoder. We perform an automated evaluation of TiCoder on the \emph{MBPP} and \emph{HumanEval} code generation benchmarks. Our results are promising with using the OpenAI Codex LLM: our best algorithm improves the \passk{1} code generation accuracy (in absolute percentages) between $22.49\%$ to $37.71\%$ for MBPP and between $24.79\%$ to $53.98\%$ for HumanEval using between 1 to 5 simulated user queries.
Abstract（参考訳）: 大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図から自然言語を生成することによって、コーディングの重要な側面を自動化する大きな可能性を示している。しかし、llmと対話する場合、ユーザは、コード提案が提供した意図を正しく満足させる保証を持っていません。実際、自然言語は曖昧で形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。本稿では,軽量ユーザフィードバックを活用した対話型テスト駆動コード生成のワークフローを提案する。 (a)デバッグに有用な生成テストを使用して、ユーザの意図を形式化する、 b) 候補コード提案のプルーニングとランク付けにより,改良されたコード提案セットを生成する。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。我々は、コード生成ベンチマークである \emph{mbpp} と \emph{humaneval} で ticoder の自動評価を行う。我々の最良のアルゴリズムは、1から5のシミュレートされたユーザクエリを使用して、22.49 %$から37.71 %$ for MBPP、24.79 %$から53.98 %$ for HumanEvalのコード生成精度(絶対パーセンテージ)を改善します。

関連論文リスト

IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。 1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文参考訳（メタデータ） (2025-07-19T00:48:20Z)
Towards Formal Verification of LLM-Generated Code from Natural Language Prompts [17.130884318613944]
LLM生成したコードに対して、正式な正当性を保証することを目指している。本稿では,ユーザの意図を形式的に定義されているが,自然言語的な方法で表現できる形式的なクエリ言語を提案する。 83%のケースで正しいコードを検証でき、92%で間違ったコードを識別できます。
論文参考訳（メタデータ） (2025-07-17T16:54:42Z)
Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文参考訳（メタデータ） (2025-04-12T15:03:00Z)
Dafny as Verification-Aware Intermediate Language for Code Generation [0.0]
大規模言語モデル(LLM)は、自然言語プロンプトからソースコードを生成する。その制限の1つは、生成したコードが正しいようにユーザに提示されているにもかかわらず、時に故障する可能性があることである。ユーザがLSMをガイドして,まず不透明な中間表現を生成することを,検証対応言語であるDafnyで提案する。正しいDafnyプログラムはターゲット言語にコンパイルされ、ユーザに返される。
論文参考訳（メタデータ） (2025-01-10T17:23:14Z)
Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文参考訳（メタデータ） (2024-12-06T17:40:38Z)
LLM-Based Test-Driven Interactive Code Generation: User Study and Empirical Evaluation [13.800675921118348]
本稿では,ガイド付き意図明確化のための対話型ワークフローTiCoderを提案する。コード生成精度を向上させるためのワークフローの有効性を実証的に評価する。我々は,5つのユーザインタラクション内において,データセットと全LLMのパス@1コード生成精度が平均45.97%向上したことを観察した。
論文参考訳（メタデータ） (2024-04-15T19:16:32Z)
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective [85.48043537327258]
本稿では, MANGO (comMents As Natural loGic pivOts) を提案する。その結果、MANGOは強いベースラインに基づいてコードパス率を大幅に改善することがわかった。論理的なコメントの復号化戦略の堅牢性は、考えの連鎖よりも顕著に高い。
論文参考訳（メタデータ） (2024-04-11T08:30:46Z)
JumpCoder: Go Beyond Autoregressive Coder via Online Modification [18.9350072969148]
JumpCoderは、人間に似たオンライン修正と非逐次生成が可能な新しいモデルに依存しないフレームワークで、LLMを増強する。 JumpCoderの背景にある重要なアイデアは、生成時に必要に応じて、現在生成されたコードに新しいコードを挿入することである。
論文参考訳（メタデータ） (2024-01-15T18:04:29Z)
Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation [22.219645213202178]
本稿では,SeCoT というコードの意味情報を抽出する "Semantic Chain-of-Thought" 手法を提案する。本研究では,SeCoTが最先端の性能を実現し,大規模モデルやコード生成の可能性を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-10-16T05:09:58Z)
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。 CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文参考訳（メタデータ） (2023-10-10T02:38:44Z)
Prompting with Pseudo-Code Instructions [12.166296720125187]
我々は、分類、QA、生成言語タスクにまたがる132のタスクに対して、擬似コードプロンプトのデータセットを作成する。これらのプロンプトと自然言語の対応を利用して, BLOOM と CodeGen の2つの LLM ファミリ上での性能について検討する。実験の結果, 擬似符号命令を用いることで, 分類作業におけるF1得点の平均7～16ポイント, ROUGE-L得点の12～38%の増加(絶対値)が得られた。
論文参考訳（メタデータ） (2023-05-19T16:25:01Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
Natural Language to Code Translation with Execution [82.52142893010563]
実行結果-プログラム選択のための最小ベイズリスク復号化。そこで本研究では,自然言語からコードへのタスクにおいて,事前訓練されたコードモデルの性能を向上することを示す。
論文参考訳（メタデータ） (2022-04-25T06:06:08Z)
ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-03-15T08:25:08Z)
Automatic Code Generation using Pre-Trained Language Models [0.0]
学習済み言語モデルの上に構築されたPython言語におけるコード生成のためのエンドツーエンドの機械学習モデルを提案する。本研究では,BLEUスコア0.22を達成し,適切なシーケンス・ツー・シーケンスベースラインよりも46%向上した,微調整モデルがコード生成タスクで良好に動作できることを実証する。
論文参考訳（メタデータ） (2021-02-21T07:21:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。