Fugu-MT 論文翻訳(概要): CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering

論文の概要: CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering

arxiv url: http://arxiv.org/abs/2501.03447v1
Date: Tue, 07 Jan 2025 00:24:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:02.915807
Title: CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering
Title（参考訳）: CoReQA: Code Repository Question Answeringにおける言語モデルの可能性を明らかにする
Authors: Jialiang Chen, Kaifa Zhao, Jie Liu, Chao Peng, Jierui Liu, Hang Zhu, Pengfei Gao, Ping Yang, Shuiguang Deng,
Abstract要約: Code Repositoryレベルの質問応答のベンチマークであるCoReQAを紹介する。 CoReQAはGitHubのイシューと4つのプログラミング言語にまたがる176の人気のあるリポジトリからのコメントから構築された。我々は、現在最先端のプロプライエタリおよび長期コンテキストモデルがリポジトリレベルの問題に効果的に取り組むのに苦労していることを示します。
参考スコア（独自算出の注目度）: 12.431784613373523
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models that enhance software development tasks, such as code generation, code completion, and code question answering (QA), have been extensively studied in both academia and the industry. The models are integrated into popular intelligent IDEs like JetBrains and Cursor. Current benchmarks for evaluating models' code comprehension capabilities primarily focus on code generation or completion, often neglecting QA, which is a crucial aspect of understanding code. Existing code QA benchmarks are derived from code comments with predefined patterns (e.g., CodeQA) or focus on specific domains, such as education (e.g., CS1QA). These benchmarks fail to capture the real-world complexity of software engineering and user requirements for understanding code repositories. To address this gap, we introduce CoReQA, a benchmark for Code Repository-level question answering, constructed from GitHub issues and comments from 176 popular repositories across four programming languages. Since questions and answers may include both natural language and code snippets, traditional evaluation metrics such as BLEU are inadequate for assessing repository-level QA performance. Thus, we provide an LLM-as-a-judge framework to evaluate QA performance from five aspects. Based on CoReQA, we evaluate the performance of three baselines, including two short-context models using generic retrieval strategies and one long-context model that utilizes the entire repository context. Evaluation results show that state-of-the-art proprietary and long-context models struggle to address repository-level questions effectively. Our analysis highlights the limitations of language models in assisting developers in understanding repositories and suggests future directions for improving repository comprehension systems through effective context retrieval methodologies.
Abstract（参考訳）: コード生成、コード補完、コード質問応答(QA)といったソフトウェア開発タスクを強化する大規模な言語モデルは、学術と産業の両方で広く研究されている。これらのモデルはJetBrainsやCursorといった一般的なインテリジェントIDEに統合されている。モデルのコード理解能力を評価するための現在のベンチマークは、主にコード生成や完了に焦点を当てており、コードを理解する上で重要な側面であるQAを無視していることが多い。既存のコードQAベンチマークは、事前に定義されたパターン(例えば、CodeQA)を使ったコードコメントや、教育(例えば、CS1QA)のような特定のドメインに焦点を当てたものだ。これらのベンチマークは、コードリポジトリを理解するためのソフトウェアエンジニアリングとユーザ要求の現実的な複雑さを捉えていない。このギャップに対処するため、Code Repositoryレベルの質問応答のベンチマークであるCoReQAを紹介します。質問や回答には自然言語とコードスニペットの両方が含まれているため、BLEUのような従来の評価指標は、リポジトリレベルのQAパフォーマンスを評価するには不十分である。そこで我々は,5つの側面からQA性能を評価するLLM-as-a-judgeフレームワークを提案する。 CoReQAに基づいて、汎用検索戦略を用いた2つの短文モデルと、リポジトリ全体のコンテキストを利用する1つの長文モデルを含む3つのベースラインの性能を評価する。評価の結果、最先端のプロプライエタリモデルと長期コンテキストモデルは、リポジトリレベルの問題に効果的に対処するのに苦労していることがわかった。本分析では,レポジトリ理解における言語モデルの限界を強調し,効率的な文脈記述手法によるリポジトリ理解システムの改善に向けた今後の方向性を提案する。

関連論文リスト

DependEval: Benchmarking LLMs for Repository Dependency Understanding [16.19185341217556]
大規模言語モデル(LLM)は、コード生成、現実のソフトウェア開発において、リポジトリレベルの推論の高度な要求において、かなり有望であることを示している。リポジトリ依存性の理解(DependEval)を評価するために設計された階層的なベンチマークを導入する。 Benchmarkは、現実世界のWebサイトから収集された15,576のリポジトリに基づいている。
論文参考訳（メタデータ） (2025-03-09T16:45:22Z)
SolBench: A Dataset and Benchmark for Evaluating Functional Correctness in Solidity Code Completion and Repair [51.0686873716938]
コード補完モデルによって生成されたSolidityスマートコントラクトの機能的正しさを評価するベンチマークであるSolBenchを紹介する。本稿では,スマートコントラクトの機能的正当性を検証するための検索拡張コード修復フレームワークを提案する。その結果、コード修復と検索技術は、計算コストを削減しつつ、スマートコントラクト完了の正しさを効果的に向上することを示した。
論文参考訳（メタデータ） (2025-03-03T01:55:20Z)
Code Summarization Beyond Function Level [0.213063058314067]
本研究では,関数レベルを超えたコード要約モデルの有効性について検討した。微調整された最先端のCodeT5+ベースモデルは、コード要約に優れていた。リポジトリレベルの要約は有望なポテンシャルを示したが、かなりの計算資源を必要とした。
論文参考訳（メタデータ） (2025-02-23T20:31:21Z)
ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文参考訳（メタデータ） (2024-12-16T17:14:35Z)
RepoGraph: Enhancing AI Software Engineering with Repository-level Code Graph [63.87660059104077]
RepoGraphは、現代のAIソフトウェアエンジニアリングソリューションのためのリポジトリレベルの構造を管理するプラグインモジュールである。 RepoGraphはすべてのシステムのパフォーマンスを大幅に向上させ、オープンソースフレームワークの間で新たな最先端技術を生み出している。
論文参考訳（メタデータ） (2024-10-03T05:45:26Z)
Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。 Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文参考訳（メタデータ） (2024-10-02T09:11:10Z)
RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale [3.378738346115004]
大規模言語モデル (LLM) を評価するベンチマーク RES-Q を開発した。我々は,Qurrent OS上に構築されたリポジトリ編集システムにおける言語エージェントとして,最先端のLLMを評価した。
論文参考訳（メタデータ） (2024-06-24T17:08:17Z)
CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。 CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文参考訳（メタデータ） (2024-06-20T16:59:52Z)
On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
リポジトリレベルのコード生成を評価するために設計された新しいベンチマークである textbfmethodnamews を提案する。実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文参考訳（メタデータ） (2024-06-17T10:45:22Z)
On The Importance of Reasoning for Context Retrieval in Repository-Level Code Editing [82.96523584351314]
我々は、コンテキスト検索のタスクをリポジトリレベルのコード編集パイプラインの他のコンポーネントと分離する。我々は、推論が収集された文脈の精度を向上させるのに役立っているが、それでもその十分性を識別する能力は欠如していると結論づける。
論文参考訳（メタデータ） (2024-06-06T19:44:17Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。 RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。 Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文参考訳（メタデータ） (2024-04-22T03:52:54Z)
RepoCoder: Repository-Level Code Completion Through Iterative Retrieval and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2023-03-22T13:54:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。