論文の概要: RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems
- arxiv url: http://arxiv.org/abs/2306.03091v2
- Date: Wed, 4 Oct 2023 01:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 21:49:26.267064
- Title: RepoBench: Benchmarking Repository-Level Code Auto-Completion Systems
- Title(参考訳): repobench: リポジトリレベルのコード自動補完システム
- Authors: Tianyang Liu, Canwen Xu, Julian McAuley
- Abstract要約: RepoBenchは、コードの自動補完システムを評価するためのベンチマークである。
RepoBench-R (Retrieval)、RepoBench-C (Code Completion)、RepoBench-P (Pipeline)の3つの評価タスクで構成されている。
- 参考スコア(独自算出の注目度): 43.797002322559834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have greatly advanced code auto-completion
systems, with a potential for substantial productivity enhancements for
developers. However, current benchmarks mainly focus on single-file tasks,
leaving an assessment gap for more complex, real-world, multi-file programming
scenarios. To fill this gap, we introduce RepoBench, a new benchmark
specifically designed for evaluating repository-level code auto-completion
systems. RepoBench supports both Python and Java and consists of three
interconnected evaluation tasks: RepoBench-R (Retrieval), RepoBench-C (Code
Completion), and RepoBench-P (Pipeline). Each task respectively measures the
system's ability to retrieve the most relevant code snippets from other files
as cross-file context, predict the next line of code with cross-file and
in-file context, and handle complex tasks that require a combination of both
retrieval and next-line prediction. RepoBench aims to facilitate a more
complete comparison of performance and encouraging continuous improvement in
auto-completion systems. RepoBench is publicly available at
https://github.com/Leolty/repobench.
- Abstract(参考訳): 大規模言語モデル(LLM)はコードの自動補完システムが大きく進歩しており、開発者の生産性が大幅に向上する可能性がある。
しかし、現在のベンチマークは主に単一ファイルタスクに焦点を当てており、より複雑な実世界のマルチファイルプログラミングシナリオに対する評価ギャップを残している。
このギャップを埋めるために、リポジトリレベルのコード自動補完システムを評価するために特別に設計された新しいベンチマークであるRepoBenchを紹介します。
RepoBenchはPythonとJavaの両方をサポートし、RepoBench-R(Retrieval)、RepoBench-C(Code Completion)、RepoBench-P(Pipeline)の3つの相互接続評価タスクで構成される。
それぞれのタスクは、他のファイルから最も関連するコードスニペットをクロスファイルコンテキストとして取得し、クロスファイルとインファイルコンテキストで次のコードの行を予測し、検索と次行の予測の両方を必要とする複雑なタスクを処理するシステムの能力を測定する。
RepoBenchは、パフォーマンスのより完全な比較を促進し、自動補完システムの継続的改善を促進することを目的としている。
RepoBenchはhttps://github.com/Leolty/repobench.comで公開されている。
関連論文リスト
- DevBench: A Comprehensive Benchmark for Software Development [73.62247555595042]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - RepoHyper: Better Context Retrieval Is All You Need for Repository-Level
Code Completion [13.299040060528982]
RepoHyperは、リポジトリレベルのコード補完に関連する複雑な問題に対処するために設計されたフレームワークである。
RepoHyperの中心はRepoレベルのセマンティックグラフ(RSG)であり、コードリポジトリの広大なコンテキストをカプセル化する新しいセマンティックグラフ構造である。
論文 参考訳(メタデータ) (2024-03-10T05:10:34Z) - CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code
Completion [86.01508183157613]
CrossCodeEvalは4つの人気のあるプログラミング言語の様々な現実世界、オープンソース、パーミッシブライセンスのリポジトリ上に構築されている。
関連するクロスファイルコンテキストが欠如している場合、CrossCodeEvalは極めて困難であることを示す。
また、コードレトリバーの能力を測定するためにCrossCodeEvalが使えることも示しています。
論文 参考訳(メタデータ) (2023-10-17T13:18:01Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - InterCode: Standardizing and Benchmarking Interactive Coding with
Execution Feedback [50.725076393314964]
標準的な強化学習環境として,インタラクティブコーディングの軽量でフレキシブルで使いやすいフレームワークであるInterCodeを紹介した。
私たちのフレームワークは、言語とプラットフォームに依存しない、自己完結型のDocker環境を使用して、安全で再現可能な実行を提供します。
我々は、異なるプロンプト戦略で構成された複数の最先端LLMを評価することにより、InterCodeの生存性をテストベッドとして示す。
論文 参考訳(メタデータ) (2023-06-26T17:59:50Z) - Advising OpenMP Parallelization via a Graph-Based Approach with
Transformers [2.393682571484038]
我々は,OpenMPのプラグマと共有メモリ属性を並列コードで検出し,予測する,OMPifyと呼ばれる新しい手法を提案する。
OMPifyは、ソースコードのグラフベースの表現を利用するTransformerベースのモデルに基づいている。
以上の結果から,OMPifyは汎用および人気の高いChatGPTやPragFormerモデルなど,既存のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T16:56:10Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。