論文の概要: Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering
- arxiv url: http://arxiv.org/abs/2603.26567v1
- Date: Fri, 27 Mar 2026 16:30:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.588405
- Title: Beyond Code Snippets: Benchmarking LLMs on Repository-Level Question Answering
- Title(参考訳): コードスニペットを超えて - リポジトリレベルの質問回答に関するLLMのベンチマーク
- Authors: Yoseph Berhanu Alebachew, Hunter Leary, Swanand Vaishampayan, Chris Brown,
- Abstract要約: 大規模言語モデル(LLM)は、質問応答(QA)を含む、ソフトウェアエンジニアリングタスク全体で印象的な機能を示している。
StackRepoQAは、134のオープンソースJavaプロジェクト間で、1,318の実際の開発者質問と受け入れられた回答から構築された、最初のマルチプロジェクト、リポジトリレベルの質問応答データセットです。
- 参考スコア(独自算出の注目度): 4.120344028676837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown impressive capabilities across software engineering tasks, including question answering (QA). However, most studies and benchmarks focus on isolated functions or single-file snippets, overlooking the challenges of real-world program comprehension, which often spans multiple files and system-level dependencies. In this work, we introduce StackRepoQA, the first multi-project, repository-level question answering dataset constructed from 1,318 real developer questions and accepted answers across 134 open-source Java projects. Using this dataset, we systematically evaluate two widely used LLMs (Claude 3.5 Sonnet and GPT-4o) under both direct prompting and agentic configurations. We compare baseline performance with retrieval-augmented generation methods that leverage file-level retrieval and graph-based representations of structural dependencies. Our results show that LLMs achieve moderate accuracy at baseline, with performance improving when structural signals are incorporated. Nonetheless, overall accuracy remains limited for repository-scale comprehension. The analysis reveals that high scores often result from verbatim reproduction of Stack Overflow answers rather than genuine reasoning. To our knowledge, this is the first empirical study to provide such evidence in repository-level QA. We release StackRepoQA to encourage further research into benchmarks, evaluation protocols, and augmentation strategies that disentangle memorization from reasoning, advancing LLMs as reliable tool for repository-scale program comprehension.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答(QA)を含む、ソフトウェアエンジニアリングタスク全体で印象的な機能を示している。
しかし、ほとんどの研究やベンチマークでは、複数のファイルやシステムレベルの依存関係にまたがる実世界のプログラム理解の課題を見越して、独立した関数や単一ファイルスニペットに焦点を当てている。
本研究では,1,318件の実際の開発者質問と134件のオープンソースJavaプロジェクトを対象とした回答から構築された,最初のマルチプロジェクト,リポジトリレベルの質問応答データセットであるStackRepoQAを紹介する。
このデータセットを用いて、直接的プロンプトとエージェント的構成の両方で広く使われている2つのLCM(Claude 3.5 Sonnet と GPT-4o)を体系的に評価した。
本稿では,ファイルレベルの検索とグラフベースの構造依存表現を利用した検索拡張生成手法と比較する。
その結果,LLMはベースラインで適度に精度が向上し,構造信号が組み込まれれば性能が向上することがわかった。
それでも、リポジトリスケールの理解には、全体的な精度が制限されている。
この分析によると、高いスコアは真の推論よりも、Stack Overflowの回答の冗長な再現から生じることが多い。
我々の知る限り、これはリポジトリレベルのQAでそのような証拠を提供する最初の実証的研究である。
我々はStackRepoQAをリリースし、ベンチマーク、評価プロトコル、拡張戦略のさらなる研究を奨励する。
関連論文リスト
- AlignCoder: Aligning Retrieval with Target Intent for Repository-Level Code Completion [55.21541958868449]
リポジトリレベルのコード補完フレームワークであるAlignCoderを提案する。
我々のフレームワークは、初期クエリとターゲットコードのセマンティックギャップを橋渡しする拡張クエリを生成する。
我々は、拡張クエリにおける推論情報を活用してより正確な検索を行うAlignRetrieverのトレーニングに強化学習を採用する。
論文 参考訳(メタデータ) (2026-01-27T15:23:14Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - SPARQL Query Generation with LLMs: Measuring the Impact of Training Data Memorization and Knowledge Injection [81.78173888579941]
大規模言語モデル(LLM)は、質問応答機能の品質を高めるのに適した方法と考えられている。
LLMはWebデータに基づいてトレーニングされており、ベンチマークや知識グラフがトレーニングデータに含まれているかどうかを研究者は制御できない。
本稿では,自然言語質問からSPARQLクエリを生成し,LLMの品質を評価する手法を提案する。
論文 参考訳(メタデータ) (2025-07-18T12:28:08Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers [16.80818230868491]
本研究では,最近のNLP論文におけるアルゴリズム記述からコードを生成する際の言語モデル (LLM) を評価する。
厳密な評価を容易にするため、2024年に発行された36のNLP論文から100のタスクのベンチマークであるSciReplicate-Benchを紹介する。
SciReplicate-Bench上に構築されたSci-Reproducerは,論文からアルゴリズムの概念を解釈するPaper Agentと,リポジトリから依存関係を検索してソリューションを実装するCode Agentで構成された,デュアルエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-03-31T22:02:24Z) - DependEval: Benchmarking LLMs for Repository Dependency Understanding [16.19185341217556]
大規模言語モデル(LLM)は、コード生成、現実のソフトウェア開発において、リポジトリレベルの推論の高度な要求において、かなり有望であることを示している。
リポジトリ依存性の理解(DependEval)を評価するために設計された階層的なベンチマークを導入する。
Benchmarkは、現実世界のWebサイトから収集された15,576のリポジトリに基づいている。
論文 参考訳(メタデータ) (2025-03-09T16:45:22Z) - Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository [4.767858874370881]
実世界のリポジトリ内でクラスレベルのコードを生成する際に,LLMを厳格に評価するためのベンチマークであるRepoClassBenchを紹介する。
RepoClassBenchには、リポジトリの選択からJava、Python、C#にまたがる"Natural Language to Class Generation"タスクが含まれている。
Retrieve-Repotools-Reflect (RRR)は,レポジトリレベルのコンテキストを反復的にナビゲートし,推論する静的解析ツールを備えた新しいアプローチである。
論文 参考訳(メタデータ) (2024-04-22T03:52:54Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。