論文の概要: ExecRepoBench: Multi-level Executable Code Completion Evaluation
- arxiv url: http://arxiv.org/abs/2412.11990v1
- Date: Mon, 16 Dec 2024 17:14:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:19.914532
- Title: ExecRepoBench: Multi-level Executable Code Completion Evaluation
- Title(参考訳): ExecRepoBench: マルチレベルの実行可能なコード補完評価
- Authors: Jian Yang, Jiajun Zhang, Jiaxi Yang, Ke Jin, Lei Zhang, Qiyao Peng, Ken Deng, Yibo Miao, Tianyu Liu, Zeyu Cui, Binyuan Hui, Junyang Lin,
- Abstract要約: 本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
- 参考スコア(独自算出の注目度): 45.963424627710765
- License:
- Abstract: Code completion has become an essential tool for daily software development. Existing evaluation benchmarks often employ static methods that do not fully capture the dynamic nature of real-world coding environments and face significant challenges, including limited context length, reliance on superficial evaluation metrics, and potential overfitting to training datasets. In this work, we introduce a novel framework for enhancing code completion in software development through the creation of a repository-level benchmark ExecRepoBench and the instruction corpora Repo-Instruct, aim at improving the functionality of open-source large language models (LLMs) in real-world coding scenarios that involve complex interdependencies across multiple files. ExecRepoBench includes 1.2K samples from active Python repositories. Plus, we present a multi-level grammar-based completion methodology conditioned on the abstract syntax tree to mask code fragments at various logical units (e.g. statements, expressions, and functions). Then, we fine-tune the open-source LLM with 7B parameters on Repo-Instruct to produce a strong code completion baseline model Qwen2.5-Coder-Instruct-C based on the open-source model. Qwen2.5-Coder-Instruct-C is rigorously evaluated against existing benchmarks, including MultiPL-E and ExecRepoBench, which consistently outperforms prior baselines across all programming languages. The deployment of \ourmethod{} can be used as a high-performance, local service for programming development\footnote{\url{https://execrepobench.github.io/}}.
- Abstract(参考訳): コード補完は、日々のソフトウェア開発に不可欠なツールになっています。
既存の評価ベンチマークでは、実世界のコーディング環境のダイナミックな性質を完全に捉えていない静的メソッドを使用し、コンテキスト長の制限、表面評価メトリクスへの依存、データセットのトレーニングに過度に適合する可能性など、重大な課題に直面している場合が多い。
本研究では,リポジトリレベルのベンチマークExecRepoBenchと命令コーパスRepo-Instructの作成を通じて,複数のファイルにまたがる複雑な相互依存を伴う実世界のコーディングシナリオにおいて,オープンソースの大規模言語モデル(LLM)の機能を改善することを目的とした,ソフトウェア開発におけるコード補完を向上するための新しいフレームワークを提案する。
ExecRepoBenchには、アクティブなPythonリポジトリから1.2Kのサンプルが含まれている。
さらに,抽象構文木に条件付き多段階文法ベースの補完手法を提案し,様々な論理単位(例えば文,表現,関数)でコードフラグメントを隠蔽する。
次に,Repo-Instruct に 7B パラメータを持つオープンソース LLM を微調整し,オープンソースモデルに基づく強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
Qwen2.5-Coder-Instruct-Cは、MultiPL-EやExecRepoBenchを含む既存のベンチマークに対して厳格に評価されている。
ourmethod{}のデプロイは、プログラム開発のための高性能でローカルなサービスとして使用できる。
関連論文リスト
- M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation [39.6123499117046]
18のプログラミング言語をカバーする多言語リポジトリレベルのコード補完ベンチマークを提案する。
異なる補完シナリオに2種類の細かいアノテーション(バケットレベルとセマンティックレベル)が提供される。
また、M2RC-INSTRUCTデータセットを多言語で作成し、既存のコード大言語モデルのリポジトリレベルのコード補完能力を向上させる。
論文 参考訳(メタデータ) (2024-10-28T15:58:41Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - R2C2-Coder: Enhancing and Benchmarking Real-world Repository-level Code Completion Abilities of Code Large Language Models [41.080558091097764]
我々は,R2C2-Coderを提案し,大規模言語モデルの実世界のリポジトリレベルのコード補完能力を向上し,ベンチマークする。
R2C2-Coderには、コードプロンプトコンストラクションメソッドR2C2-Enhanceと、よく設計されたベンチマークR2C2-Benchが含まれている。
論文 参考訳(メタデータ) (2024-06-03T14:24:29Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - InterCode: Standardizing and Benchmarking Interactive Coding with
Execution Feedback [50.725076393314964]
標準的な強化学習環境として,インタラクティブコーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを紹介した。
私たちのフレームワークは、言語とプラットフォームに依存しない、自己完結型のDocker環境を使用して、安全で再現可能な実行を提供します。
我々は、異なるプロンプト戦略で構成された複数の最先端LLMを評価することにより、InterCodeの生存性をテストベッドとして示す。
論文 参考訳(メタデータ) (2023-06-26T17:59:50Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - ReACC: A Retrieval-Augmented Code Completion Framework [53.49707123661763]
本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-15T08:25:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。