論文の概要: YABLoCo: Yet Another Benchmark for Long Context Code Generation
- arxiv url: http://arxiv.org/abs/2505.04406v1
- Date: Wed, 07 May 2025 13:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.091447
- Title: YABLoCo: Yet Another Benchmark for Long Context Code Generation
- Title(参考訳): YABLoCo: 長期のコード生成のためのもう1つのベンチマーク
- Authors: Aidar Valeev, Roman Garaev, Vadim Lomshakov, Irina Piontkovskaya, Vladimir Ivanov, Israel Adewuyi,
- Abstract要約: 本稿では,長期文脈コード生成ベンチマーク(YABLoCo)に貢献する。
ベンチマークでは、数千の関数を持つ4つの大きなリポジトリから選択された215の関数のテストセットが特徴である。
ベンチマークには200Kから2000K LoCまでの大規模なリポジトリが含まれている。
- 参考スコア(独自算出の注目度): 3.1497421627133297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models demonstrate the ability to solve various programming tasks, including code generation. Typically, the performance of LLMs is measured on benchmarks with small or medium-sized context windows of thousands of lines of code. At the same time, in real-world software projects, repositories can span up to millions of LoC. This paper closes this gap by contributing to the long context code generation benchmark (YABLoCo). The benchmark featured a test set of 215 functions selected from four large repositories with thousands of functions. The dataset contained metadata of functions, contexts of the functions with different levels of dependencies, docstrings, functions bodies, and call graphs for each repository. This paper presents three key aspects of the contribution. First, the benchmark aims at function body generation in large repositories in C and C++, two languages not covered by previous benchmarks. Second, the benchmark contains large repositories from 200K to 2,000K LoC. Third, we contribute a scalable evaluation pipeline for efficient computing of the target metrics and a tool for visual analysis of generated code. Overall, these three aspects allow for evaluating code generation in large repositories in C and C++.
- Abstract(参考訳): 大規模言語モデルは、コード生成を含む様々なプログラミングタスクを解く能力を示している。
通常、LLMのパフォーマンスは数千行のコードからなる小さな、または中規模のコンテキストウィンドウを持つベンチマークで測定される。
同時に、現実世界のソフトウェアプロジェクトでは、リポジトリは数百万のLoCにまたがることができます。
本稿では,長コンテキストコード生成ベンチマーク(YABLoCo)へのコントリビューションによって,このギャップを埋める。
ベンチマークでは、数千の関数を持つ4つの大きなリポジトリから選択された215の関数のテストセットが紹介された。
データセットには、関数のメタデータ、依存関係のレベルが異なる関数のコンテキスト、ドキュメント、関数本体、各リポジトリのコールグラフが含まれていた。
本稿では,貢献の3つの重要な側面について述べる。
まず、ベンチマークはCとC++の大規模なリポジトリで関数ボディ生成を目標としている。
第2に、ベンチマークには200Kから2000K LoCまでの大規模なリポジトリが含まれている。
第3に、ターゲットメトリクスの効率的な計算のためのスケーラブルな評価パイプラインと、生成されたコードの視覚的解析ツールを提供します。
全体として、これらの3つの側面は、CとC++の大きなリポジトリでコード生成を評価することができる。
関連論文リスト
- CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。
ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文 参考訳(メタデータ) (2025-02-12T21:42:56Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - ComplexCodeEval: A Benchmark for Evaluating Large Code Models on More Complex Code [29.178248778212588]
ComplexCodeEvalは、様々な開発タスクで大きな言語モデル(LLM)を評価するために設計されたベンチマークである。
これには、上位のGitHubリポジトリから3,897のJavaサンプルと7,184のPythonサンプルが含まれている。
論文 参考訳(メタデータ) (2024-09-16T13:43:04Z) - Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。
これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。
各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文 参考訳(メタデータ) (2024-06-17T14:58:29Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。
バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。
VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文 参考訳(メタデータ) (2024-06-11T16:15:06Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。