論文の概要: RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems
- arxiv url: http://arxiv.org/abs/2306.03091v1
- Date: Mon, 5 Jun 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 13:26:10.455516
- Title: RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems
- Title(参考訳): repobench: リポジトリレベルのコード自動補完システム
- Authors: Tianyang Liu, Canwen Xu, Julian McAuley
- Abstract要約: RepoBenchはリポジトリレベルのコード自動補完システムを評価するためのベンチマークである。
RepoBenchは、RepoBench-R (Retrieval)、RepoBench-C (Code Completion)、RepoBench-P (Pipeline)の3つの評価タスクで構成される。
- 参考スコア(独自算出の注目度): 11.807687905883895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have greatly advanced code auto-completion
systems, with a potential for substantial productivity enhancements for
developers. However, current benchmarks mainly focus on single-file tasks,
leaving an assessment gap for more complex, real-world, multi-file programming
scenarios. To fill this gap, we introduce RepoBench, a new benchmark
specifically designed for evaluating repository-level code auto-completion
systems. RepoBench consists of three interconnected evaluation tasks:
RepoBench-R (Retrieval), RepoBench-C (Code Completion), and RepoBench-P
(Pipeline). Each task respectively measures the system's ability to retrieve
the most relevant code snippets from other files as cross-file context, predict
the next line of code with cross-file and in-file context, and handle complex
tasks that require a combination of both retrieval and next-line prediction.
RepoBench aims to facilitate a more complete comparison of performance and
encouraging continuous improvement in auto-completion systems. RepoBench is
publicly available at https://github.com/Leolty/repobench.
- Abstract(参考訳): 大規模言語モデル(LLM)はコードの自動補完システムが大きく進歩しており、開発者の生産性が大幅に向上する可能性がある。
しかし、現在のベンチマークは主に単一ファイルタスクに焦点を当てており、より複雑な実世界のマルチファイルプログラミングシナリオに対する評価ギャップを残している。
このギャップを埋めるために、リポジトリレベルのコード自動補完システムを評価するために特別に設計された新しいベンチマークであるRepoBenchを紹介します。
RepoBenchはRepoBench-R(Retrieval)、RepoBench-C(Code Completion)、RepoBench-P(Pipeline)の3つの相互接続評価タスクで構成される。
それぞれのタスクは、他のファイルから最も関連するコードスニペットをクロスファイルコンテキストとして取得し、クロスファイルとインファイルコンテキストで次のコードの行を予測し、検索と次行の予測の両方を必要とする複雑なタスクを処理するシステムの能力を測定する。
RepoBenchは、パフォーマンスのより完全な比較を促進し、自動補完システムの継続的改善を促進することを目的としている。
RepoBenchはhttps://github.com/Leolty/repobench.comで公開されている。
関連論文リスト
- PyBench: Evaluating LLM Agent on various real-world coding tasks [13.347173063163138]
PyBenchは、現実世界のタスクの5つの主要なカテゴリをカバーするベンチマークで、10種類以上のファイルをカバーする。
我々の評価は、現在のオープンソースLLMがこれらのタスクに苦戦していることを示している。
微調整された8Bサイズモデル: textbfPyLlama3はPyBench上でエキサイティングなパフォーマンスを実現します。
論文 参考訳(メタデータ) (2024-07-23T15:23:14Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - PruningBench: A Comprehensive Benchmark of Structural Pruning [50.23493036025595]
textitPruningBenchと呼ばれる、構造的プルーニングのための最初の包括的なベンチマークを提示する。
PruningBenchは、多様な構造的プルーニング技術の有効性を評価するために、統一的で一貫したフレームワークを使用している。
将来の刈り取り方法の実装を容易にするための実装が容易なインターフェースを提供し、その後の研究者が自身の作業をリーダボードに組み込めるようにします。
論文 参考訳(メタデータ) (2024-06-18T06:37:26Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code
Completion [86.01508183157613]
CrossCodeEvalは4つの人気のあるプログラミング言語の様々な現実世界、オープンソース、パーミッシブライセンスのリポジトリ上に構築されている。
関連するクロスファイルコンテキストが欠如している場合、CrossCodeEvalは極めて困難であることを示す。
また、コードレトリバーの能力を測定するためにCrossCodeEvalが使えることも示しています。
論文 参考訳(メタデータ) (2023-10-17T13:18:01Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。