Fugu-MT 論文翻訳(概要): CodeRepoQA: A Large-scale Benchmark for Software Engineering Question Answering

論文の概要: CodeRepoQA: A Large-scale Benchmark for Software Engineering Question Answering

arxiv url: http://arxiv.org/abs/2412.14764v1
Date: Thu, 19 Dec 2024 11:48:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-20 18:44:16.113275
Title: CodeRepoQA: A Large-scale Benchmark for Software Engineering Question Answering
Title（参考訳）: CodeRepoQA: ソフトウェアエンジニアリングに関する質問に対する大規模ベンチマーク
Authors: Ruida Hu, Chao Peng, Jingyi Ren, Bo Jiang, Xiangxin Meng, Qinyun Wu, Pengfei Gao, Xinchen Wang, Cuiyun Gao,
Abstract要約: ソフトウェア工学におけるリポジトリレベルの質問応答能力を評価するための大規模なベンチマークであるCodeRepoQAを紹介する。 CodeRepoQAは5つのプログラミング言語を含み、幅広いシナリオをカバーし、言語モデルの包括的な評価を可能にする。 CodeRepoQAは585,687のエントリを持ち、さまざまなソフトウェアエンジニアリングシナリオをカバーするマルチターン質問答えベンチマークである。
参考スコア（独自算出の注目度）: 11.087034068992653
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In this work, we introduce CodeRepoQA, a large-scale benchmark specifically designed for evaluating repository-level question-answering capabilities in the field of software engineering. CodeRepoQA encompasses five programming languages and covers a wide range of scenarios, enabling comprehensive evaluation of language models. To construct this dataset, we crawl data from 30 well-known repositories in GitHub, the largest platform for hosting and collaborating on code, and carefully filter raw data. In total, CodeRepoQA is a multi-turn question-answering benchmark with 585,687 entries, covering a diverse array of software engineering scenarios, with an average of 6.62 dialogue turns per entry. We evaluate ten popular large language models on our dataset and provide in-depth analysis. We find that LLMs still have limitations in question-answering capabilities in the field of software engineering, and medium-length contexts are more conducive to LLMs' performance. The entire benchmark is publicly available at https://github.com/kinesiatricssxilm14/CodeRepoQA.
Abstract（参考訳）: 本稿では,ソフトウェア工学分野におけるリポジトリレベルの質問応答能力を評価するために設計された大規模ベンチマークであるCodeRepoQAを紹介する。 CodeRepoQAは5つのプログラミング言語を含み、幅広いシナリオをカバーし、言語モデルの包括的な評価を可能にする。このデータセットを構築するために、GitHubで有名な30のリポジトリからデータをクロールしました。 CodeRepoQAは585,687のエントリを持つマルチターン質問答えベンチマークであり、さまざまなソフトウェアエンジニアリングシナリオをカバーする。データセット上で10のポピュラーな大言語モデルを評価し,詳細な分析を行う。 LLMはソフトウェア工学の分野でも質問応答能力に限界があり、中の長さのコンテキストはLLMのパフォーマンスに寄与する。ベンチマーク全体はhttps://github.com/kinesiatricssxilm14/CodeRepoQAで公開されている。

関連論文リスト

Meta-RAG on Large Codebases Using Code Summarization [11.415083231118142]
大規模言語モデル(LLM)システムは、様々な領域における応用人工知能(AI)研究の最前線にある。本稿では,情報検索とLLMを用いた大規模既存システムにおけるバグのローカライズを行うマルチエージェントシステムを提案する。そこでは,要約を利用して79.8%の縮合を行い,コンパクトで構造化された自然言語表現を実現する。
論文参考訳（メタデータ） (2025-08-04T17:01:10Z)
MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance [18.886738819470086]
我々は,マルチターンプログラミング支援を評価するための最初のベンチマークフレームワークであるCodeAssistBench (CAB)を紹介した。既存のプログラミングQ&Aベンチマークとは異なり、CABは質問に関連するGitHubの問題からスケーラブルなデータセットを自動的に生成する。このフレームワークを用いて,231リポジトリにわたる3,286の現実世界のプログラミング質問をテストセットとして構築した。
論文参考訳（メタデータ） (2025-07-14T17:19:00Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
YABLoCo: Yet Another Benchmark for Long Context Code Generation [3.1497421627133297]
本稿では,長期文脈コード生成ベンチマーク(YABLoCo)に貢献する。ベンチマークでは、数千の関数を持つ4つの大きなリポジトリから選択された215の関数のテストセットが特徴である。ベンチマークには200Kから2000K LoCまでの大規模なリポジトリが含まれている。
論文参考訳（メタデータ） (2025-05-07T13:42:23Z)
SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。 SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文参考訳（メタデータ） (2025-04-11T17:08:02Z)
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。 LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文参考訳（メタデータ） (2025-04-05T02:52:16Z)
Evaluation of Code LLMs on Geospatial Code Generation [1.6834474847800562]
大規模言語モデル(LLM)は、データサイエンスと機械学習アプリケーションのためのPythonコードを生成することができる。本稿では,空間的タスクの選択に基づいて,コード生成モデルの評価ベンチマークを構築した。我々のデータセットは、地理空間的コーディングタスクを高精度に解決できる新しいモデルの開発に貢献することを期待している。
論文参考訳（メタデータ） (2024-10-06T20:34:03Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
Long Code Arena: a Set of Benchmarks for Long-Context Code Models [75.70507534322336]
Long Code Arenaは、プロジェクト全体のコンテキストを必要とするコード処理タスクのための6つのベンチマークスイートである。これらのタスクは、ライブラリベースのコード生成、CIビルドの修復、プロジェクトレベルのコード補完、コミットメッセージ生成、バグローカライゼーション、モジュールの要約といった、コード処理のさまざまな側面をカバーする。各タスクに対して、テスト用の手作業によるデータセット、評価スイート、オープンソースのベースラインソリューションを提供しています。
論文参考訳（メタデータ） (2024-06-17T14:58:29Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
RepoQA: Evaluating Long Context Code Understanding [12.329233433333416]
RepoQAは、Large Language Models(LLM)を長文のコード理解で評価するためのベンチマークである。 RepoQAには、5つのモダンプログラミング言語にまたがる50の人気のあるリポジトリから収集された500のコード検索タスクが含まれている。
論文参考訳（メタデータ） (2024-06-10T05:15:30Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Generative AI for Software Metadata: Overview of the Information Retrieval in Software Engineering Track at FIRE 2023 [18.616716369775883]
Information Retrieval in Software Engineering (IRSE)トラックは、コードコメントの自動評価ソリューションの開発を目的としている。データセットは9048のコードコメントと、オープンソースCベースのプロジェクトから抽出されたコードスニペットペアで構成されている。大きな言語モデルから生成されたラベルは、予測モデルのバイアスを増加させるが、過度に適合しない結果をもたらす。
論文参考訳（メタデータ） (2023-10-27T14:13:23Z)
LLMeBench: A Flexible Framework for Accelerating LLMs Benchmarking [26.413008616554816]
言語に関係なく,任意のNLPタスクに対してLLM(Large Language Models)を評価するために,シームレスにカスタマイズできるLLMeBenchフレームワークを紹介した。特定のデータセットとタスクは、20行未満のコードで所定のLLMに対して評価できると同時に、カスタムデータセット、モデル、タスクのためのフレームワークを完全な柔軟性で拡張することができる。このフレームワークは、約296Kのデータポイントを含む90の実験的なセットアップ内で53の公開データセットを使用して、31のユニークなNLPタスクでテストされている。
論文参考訳（メタデータ） (2023-08-09T13:22:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。