論文の概要: SelfPiCo: Self-Guided Partial Code Execution with LLMs
- arxiv url: http://arxiv.org/abs/2407.16974v1
- Date: Wed, 24 Jul 2024 03:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:53:14.762066
- Title: SelfPiCo: Self-Guided Partial Code Execution with LLMs
- Title(参考訳): SelfPiCo: LLMによるセルフガイド部分コード実行
- Authors: Zhipeng Xue, Zhipeng Gao, Shaohua Wang, Xing Hu, Xin Xia, Shanping Li,
- Abstract要約: SelfPiCoは、オープンソースのCode Llamaをインタラクティブループに組み込むことで、部分的なコード実行を動的にガイドする。
SelfPiCoは、オープンソースコードとStack Overflowスニペットの全行の72.7%と83.3%を実行できる。
- 参考スコア(独自算出の注目度): 13.102905470309851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code executability plays a vital role in software debugging and testing (e.g., detecting runtime exceptions or assertion violations). However, code execution, especially partial or arbitrary code execution, is a non-trivial task due to missing definitions and complex third-party dependencies. To make partial code (such as code snippets posted on the web or code fragments deep inside complex software projects) executable, the existing study has proposed a machine learning model to predict the undefined element types and inject the pre-defined dummy values into execution. However, the performance of their tool is limited due to its simply designed dummy values and the inability to continue learning. In this paper, we design and implement a novel framework, named SelfPiCo (Self Guided Partial Code Executor), to dynamically guide partial code execution by incorporating the open-source LLM (i.e., Code Llama) within an interactive loop. Particularly, SelfPiCo leverages few-shot in-context learning and chain-of-thought reasoning to elicit human knowledge and logical reasoning based on fine-tuning the Code Llama model. SelfPiCo continuously learns from code execution results and refines its predictions step after step. Our evaluations demonstrate that SelfPiCo can execute 72.7% and 83.3% of all lines in the open-source code and Stack Overflow snippets, outperforming the most recent state-of-the-art Lexecutor by 37.9% and 33.5%, respectively. Moreover, SelfPiCo successfully detected 18 and 33 runtime type error issues by executing the partial code from eight GitHub software projects and 43 Stack Overflow posts, demonstrating the practical usage and potential application of our framework in practice.
- Abstract(参考訳): コードの実行可能性は、ソフトウェアデバッグとテスト(例えば、実行時例外の検出やアサーション違反)において重要な役割を果たす。
しかしながら、コード実行、特に部分的あるいは任意のコード実行は、定義の欠如と複雑なサードパーティの依存関係のため、非自明なタスクである。
部分的なコード(Webにポストされたコードスニペットや複雑なソフトウェアプロジェクト内部のコードフラグメントなど)を実行可能なものにするために、既存の研究では、未定義の要素タイプを予測し、事前に定義されたダミー値を実行に注入するマシンラーニングモデルが提案されている。
しかし、単純な設計のダミー値と学習を継続できないため、ツールのパフォーマンスは制限されている。
本稿では,オープンソースのLLM(Code Llama)をインタラクティブループに組み込むことで,部分的なコード実行を動的にガイドする,SelfPiCo(Self Guided partial Code Executor)という新しいフレームワークの設計と実装を行う。
特に、SelfPiCoは、コードラマモデルを微調整した人間の知識と論理的推論を引き出すために、文脈内学習と思考の連鎖的推論を利用する。
SelfPiCoは、コード実行結果から継続的に学び、ステップ後の予測を洗練します。
我々の評価では、オープンソースコードとStack Overflowスニペットの72.7%と83.3%がSelfPiCoで実行でき、最新のLexecutorをそれぞれ37.9%、33.5%上回っている。
さらに、SelfPiCoは8つのGitHubソフトウェアプロジェクトと43のStack Overflowポストから部分的なコードを実行することで、18と33のランタイムタイプのエラー問題の検出に成功した。
関連論文リスト
- DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - SemCoder: Training Code Language Models with Comprehensive Semantics Reasoning [24.93484793667691]
本稿では,静的テキストデータへのコードLLMの依存と意味理解の必要性のギャップを埋めることを目的としている。
包括的意味論を推論するために、コードLLMを訓練するための新しい戦略であるモノローグ推論を導入する。
我々は、コード生成および実行推論タスクにおいて、GPT-3.5-turboと競合する性能を示す、たった6.7BパラメータのコードLLMであるSemCoderを開発した。
論文 参考訳(メタデータ) (2024-06-03T05:36:57Z) - CodeMind: A Framework to Challenge Large Language Models for Code Reasoning [1.4027589547318842]
大規模言語モデル(LLM)のコード推論能力を評価するために設計されたフレームワークであるCodeMindを紹介する。
CodeMindは、Independent Execution Reasoning (IER)、Dependent Execution Reasoning (DER)、Specification Reasoning (SR)の3つのコード推論タスクをサポートしている。
論文 参考訳(メタデータ) (2024-02-15T02:24:46Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - LExecutor: Learning-Guided Execution [21.417049430066616]
本稿では,任意のコードスニペットを制約の少ない方法で実行するための学習誘導型LExecutorを提案する。
キーとなるアイデアは、プログラムが立ち往生する原因となる欠落した値をニューラルモデルに予測させ、これらの値を実行に注入することです。
我々は、人気のあるオープンソースプロジェクトからのPythonコードに対するアプローチと、Stack Overflowから抽出されたコードスニペットについて評価する。
論文 参考訳(メタデータ) (2023-02-05T09:12:07Z) - Coder Reviewer Reranking for Code Generation [56.80381384717]
本稿では,コード言語モデルから多様なプログラムを抽出し,モデル確率で再ランク付けする手法として,Coder-Reviewerの再ランク付けを提案する。
実験の結果、Coder-Reviewerのリランクは、Coderモデルのみのリランクよりも一貫性と大幅な改善をもたらすことが示された。
Coder-Reviewerのリランクは、プロンプトによって実装が容易で、異なるプログラミング言語に一般化でき、既定のハイパーパラメータとうまく機能する。
論文 参考訳(メタデータ) (2022-11-29T18:56:33Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。