論文の概要: ZS4C: Zero-Shot Synthesis of Compilable Code for Incomplete Code
Snippets using ChatGPT
- arxiv url: http://arxiv.org/abs/2401.14279v1
- Date: Thu, 25 Jan 2024 16:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 14:09:04.901396
- Title: ZS4C: Zero-Shot Synthesis of Compilable Code for Incomplete Code
Snippets using ChatGPT
- Title(参考訳): ZS4C: ChatGPT を用いた不完全コードスニペット用コンパイル可能コードのゼロショット合成
- Authors: Azmain Kabir, Shaowei Wang, Yuan Tian, Tse-Hsun (Peter) Chen, Muhammad
Asaduzzaman, Wenbin Zhang
- Abstract要約: Q&Aサイトのコードスニペットはコンパイル不可能であり、セマンティックにはコンパイルに不完全である。
非完全コードスニペットからコンパイル可能コードのゼロショット合成を行うための軽量なアプローチであるZS4Cを提案する。
- 参考スコア(独自算出の注目度): 12.720628049721325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Technical question and answering (Q&A) sites such as Stack Overflow have
become an important source for software developers to seek knowledge. However,
code snippets on Q&A sites are usually uncompilable and semantically incomplete
for compilation due to unresolved types and missing dependent libraries, which
raises the obstacle for users to reuse or analyze Q&A code snippets. Prior
approaches either are not designed for synthesizing compilable code or suffer
from a low compilation success rate. To address this problem, we propose ZS4C,
a lightweight approach to perform zero-shot synthesis of compilable code from
incomplete code snippets using Large Language Model (LLM). ZS4C operates in two
stages. In the first stage, ZS4C utilizes an LLM, i.e., ChatGPT, to identify
missing import statements for a given code snippet, leveraging our designed
task-specific prompt template. In the second stage, ZS4C fixes compilation
errors caused by incorrect import statements and syntax errors through
collaborative work between ChatGPT and a compiler. We thoroughly evaluated ZS4C
on a widely used benchmark called StatType-SO against the SOTA approach SnR.
Compared with SnR, ZS4C improves the compilation rate from 63% to 87.6%, with a
39.3% improvement. On average, ZS4C can infer more accurate import statements
than SnR, with an improvement of 6.6% in the F1.
- Abstract(参考訳): Stack Overflowのような技術的疑問と回答(Q&A)サイトは、ソフトウェア開発者が知識を求める上で重要な情報源になっている。
しかしながら、Q&Aサイトのコードスニペットは通常、未解決の型と依存ライブラリが欠如しているため、コンパイルにはコンパイル不可能で意味的に不完全である。
以前のアプローチは、コンパイル可能なコードを合成するために設計されていないか、あるいは低いコンパイル成功率に悩まされている。
この問題に対処するために,Large Language Model (LLM) を用いた不完全なコードスニペットからコンパイル可能コードのゼロショット合成を行う軽量なアプローチであるZS4Cを提案する。
ZS4Cは2段階ある。
最初の段階では、ZS4CはLLM、すなわちChatGPTを使用して、与えられたコードスニペットの欠落したインポートステートメントを特定し、設計したタスク固有のプロンプトテンプレートを活用する。
第2段階では、ZS4CはChatGPTとコンパイラの協調作業を通じて、誤ったインポート文と構文エラーによるコンパイルエラーを修正する。
我々はZS4CをSnRに対するStatType-SOと呼ばれる広く使われているベンチマークで徹底的に評価した。
SnRと比較して、ZS4Cはコンパイル速度を63%から87.6%改善し、39.3%改善した。
平均すると、ZS4CはSnRよりも正確なインポートステートメントを推測でき、F1では6.6%改善されている。
関連論文リスト
- LLM4Decompile: Decompiling Binary Code with Large Language Models [11.302601810557315]
Decompilationは、コンパイルされたコードを可読性のあるソースコードに復元することを目的としている。
大規模言語モデル(LLM)は、プログラムタスクの約束を示し、そのアプリケーションを非コンパイルに動機付ける。
C ソースコードの40億個のトークンと対応するアセンブリコードで事前訓練された 1B から 33B までの,最初のオープンアクセス逆コンパイル LLM をリリースする。
論文 参考訳(メタデータ) (2024-03-08T13:10:59Z) - Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize
Encoded Knowledge [85.17343729885003]
我々は,Hint-before-Solving Prompting (HSP)を導入し,その問題を解くためのヒントを生成する。
HSPは推論タスクの精度を効果的に向上させることができる。
我々はHSPと細調整されたLlemma-7Bに基づいてHSPMATHデータセットを構築し、64.3精度を達成した。
論文 参考訳(メタデータ) (2024-02-22T05:58:03Z) - Guess & Sketch: Language Model Guided Transpilation [59.02147255276078]
学習されたトランスパイレーションは、手作業による書き直しやエンジニアリングの取り組みに代わるものだ。
確率的ニューラルネットワークモデル(LM)は、入力毎に可塑性出力を生成するが、正確性を保証するコストがかかる。
Guess & Sketch は LM の特徴からアライメントと信頼性情報を抽出し、意味的等価性を解決するためにシンボリック・ソルバに渡す。
論文 参考訳(メタデータ) (2023-09-25T15:42:18Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z) - A Chain of AI-based Solutions for Resolving FQNs and Fixing Syntax
Errors in Partial Code [20.5627916036]
APIドキュメント、テクニカルブログ、プログラミングQ&Aサイトには、プログラミングタスクで再利用できる多数の部分的なコードが含まれているが、多くの場合、未解決の名前と構文エラーのために、これらのコードはコンパイル不可能である。
完全修飾名 (FQN) の解決とChatGPTのような巨大言語モデル (LLM) に基づく部分コードにおけるラストマイル構文エラーの修正のための部分コード再利用チェーン (PCR-Chain) を提案する。
論文 参考訳(メタデータ) (2023-06-21T02:13:32Z) - CoTran: An LLM-based Code Translator using Reinforcement Learning with
Feedback from Compiler and Symbolic Execution [7.125642663737713]
本稿では,LLMに基づくコード翻訳手法と,それに関連するツールであるCoTranを提案する。
CoTranは、コンパイラとsymexecベースのテストフィードバックを通じて、LLMのトレーニングをガイドするために設計されている。
私たちのツールは、PythonからJavaへの翻訳で48.68%のFEqAcc、76.98%のCompAccを達成する一方、最も近い競合ツール(PLBART-base)は38.26%と75.77%のrespしか得られない。
論文 参考訳(メタデータ) (2023-06-11T19:47:52Z) - Interleaving Retrieval with Chain-of-Thought Reasoning for
Knowledge-Intensive Multi-Step Questions [50.114651561111245]
マルチステップ質問応答のための新しいアプローチであるIRCoTを提案する。
CoTのステップで検索をインターリーブし、CoTで検索を誘導し、検索結果を用いてCoTを改善する。
論文 参考訳(メタデータ) (2022-12-20T18:26:34Z) - Syntax-Aware On-the-Fly Code Completion [13.268277642411974]
我々はPyCoderを提案する。トークン型は軽量な構文情報の一種である。
私たちのPyCoderはトークンレベルの予測に対して77.12%の精度でCodeXGLUEのリーダーボードで1位を獲得しました。
論文 参考訳(メタデータ) (2022-11-09T04:24:18Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。