論文の概要: SWE-QA: Can Language Models Answer Repository-level Code Questions?
- arxiv url: http://arxiv.org/abs/2509.14635v1
- Date: Thu, 18 Sep 2025 05:25:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.079492
- Title: SWE-QA: Can Language Models Answer Repository-level Code Questions?
- Title(参考訳): SWE-QA: 言語モデルはリポジトリレベルのコード質問に答えられるか?
- Authors: Weihan Peng, Yuling Shi, Yuhang Wang, Xinyun Zhang, Beijun Shen, Xiaodong Gu,
- Abstract要約: SWE-QAは、現実的なコード環境における自動QAシステムの研究を容易にするために設計された、リポジトリレベルのコード質問応答(QA)ベンチマークである。
SWE-QAは、意図的理解、クロスファイル推論、マルチホップ依存分析など、さまざまなカテゴリにまたがる576の高品質な質問応答ペアを含んでいる。
エージェントフレームワークであるSWE-QA-Agentを開発した。
- 参考スコア(独自算出の注目度): 23.0514975768053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and reasoning about entire software repositories is an essential capability for intelligent software engineering tools. While existing benchmarks such as CoSQA and CodeQA have advanced the field, they predominantly focus on small, self-contained code snippets. These setups fail to capture the complexity of real-world repositories, where effective understanding and reasoning often require navigating multiple files, understanding software architecture, and grounding answers in long-range code dependencies. In this paper, we present SWE-QA, a repository-level code question answering (QA) benchmark designed to facilitate research on automated QA systems in realistic code environments. SWE-QA involves 576 high-quality question-answer pairs spanning diverse categories, including intention understanding, cross-file reasoning, and multi-hop dependency analysis. To construct SWE-QA, we first crawled 77,100 GitHub issues from 11 popular repositories. Based on an analysis of naturally occurring developer questions extracted from these issues, we developed a two-level taxonomy of repository-level questions and constructed a set of seed questions for each category. For each category, we manually curated and validated questions and collected their corresponding answers. As a prototype application, we further develop SWE-QA-Agent, an agentic framework in which LLM agents reason and act to find answers automatically. We evaluate six advanced LLMs on SWE-QA under various context augmentation strategies. Experimental results highlight the promise of LLMs, particularly our SWE-QA-Agent framework, in addressing repository-level QA, while also revealing open challenges and pointing to future research directions.
- Abstract(参考訳): ソフトウェアリポジトリ全体の理解と推論は、インテリジェントなソフトウェアエンジニアリングツールにとって不可欠な機能である。
CoSQAやCodeQAといった既存のベンチマークはこの分野を前進させているが、それらは主に小さく、自己完結したコードスニペットに焦点を当てている。
効果的な理解と推論は、複数のファイルをナビゲートし、ソフトウェアアーキテクチャを理解し、長い範囲のコード依存に答える必要がある。
本稿では,現実的なコード環境における自動QAシステムの研究を容易にするために,リポジトリレベルのコード質問応答(QA)ベンチマークであるSWE-QAを提案する。
SWE-QAは、意図的理解、クロスファイル推論、マルチホップ依存分析など、さまざまなカテゴリにまたがる576の高品質な質問応答ペアを含んでいる。
SWE-QAを構築するために、私たちはまず、11の人気のあるリポジトリから77,100のGitHubイシューをクロールしました。
これらの課題から抽出された自然発生の開発者質問の分析に基づいて,リポジトリレベルの質問の2段階の分類法を開発し,各カテゴリの種問セットを構築した。
各カテゴリについて,質問を手作業でキュレートし,検証し,回答を収集した。
SWE-QA-Agent(SWE-QA-Agent)は,LLMエージェントが推論を行い,自動的に回答を見つけるためのエージェントフレームワークである。
我々は,SWE-QAにおける6つの高度なLCMを,様々な文脈拡張戦略の下で評価した。
実験結果は、リポジトリレベルのQAに対処する上で、LLM、特にSWE-QA-Agentフレームワークの可能性を浮き彫りにして、オープンな課題を明らかにし、今後の研究方向性を示す。
関連論文リスト
- The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance [18.886738819470086]
我々は,マルチターンプログラミング支援を評価するための最初のベンチマークフレームワークであるCodeAssistBench (CAB)を紹介した。
既存のプログラミングQ&Aベンチマークとは異なり、CABは質問に関連するGitHubの問題からスケーラブルなデータセットを自動的に生成する。
このフレームワークを用いて,231リポジトリにわたる3,286の現実世界のプログラミング質問をテストセットとして構築した。
論文 参考訳(メタデータ) (2025-07-14T17:19:00Z) - CoReQA: Uncovering Potentials of Language Models in Code Repository Question Answering [12.431784613373523]
Code Repositoryレベルの質問応答のベンチマークであるCoReQAを紹介する。
CoReQAはGitHubのイシューと4つのプログラミング言語にまたがる176の人気のあるリポジトリからのコメントから構築された。
我々は、現在最先端のプロプライエタリおよび長期コンテキストモデルがリポジトリレベルの問題に効果的に取り組むのに苦労していることを示します。
論文 参考訳(メタデータ) (2025-01-07T00:24:07Z) - Grounding-IQA: Multimodal Language Grounding Model for Image Quality Assessment [69.07445098168344]
我々は,新しい画像品質評価(IQA)タスクパラダイム,グラウンドング-IQAを導入する。
Grounding-IQAは2つのサブタスクからなる: Grounding-IQA-description (GIQA-DES) と visual question answering (GIQA-VQA)。
グラウンドディング-IQAを実現するために,提案した自動アノテーションパイプラインを通じて対応するデータセットGIQA-160Kを構築した。
提案したタスクパラダイム,データセット,ベンチマークが,よりきめ細かいIQAアプリケーションを促進することを示す。
論文 参考訳(メタデータ) (2024-11-26T09:03:16Z) - DEXTER: A Benchmark for open-domain Complex Question Answering using LLMs [3.24692739098077]
オープンドメイン複合質問回答 (QA) は証拠検索と推論において難しい課題である。
我々は、オープンドメイン設定で、最先端の訓練済み高密度・スパース検索モデルを評価する。
BM25のような遅延相互作用モデルや驚くほど語彙的モデルは、事前訓練された高密度検索モデルと比較してよく機能する。
論文 参考訳(メタデータ) (2024-06-24T22:09:50Z) - In-Context Ability Transfer for Question Decomposition in Complex QA [6.745884231594893]
複雑な問合せ課題を解決するために,icat(In-Context Ability Transfer)を提案する。
複雑な質問を単純な質問に分解したり、ステップバイステップの合理性をLSMに生成することができる。
本研究では, 数値推論, 構成複素QA, 不均一複素QAを含む多種多様な複雑なQAタスクについて大規模に実験を行った。
論文 参考訳(メタデータ) (2023-10-26T11:11:07Z) - ProQA: Structural Prompt-based Pre-training for Unified Question
Answering [84.59636806421204]
ProQAは統一されたQAパラダイムであり、単一のモデルによって様々なタスクを解決する。
全てのQAタスクの知識一般化を同時にモデル化し、特定のQAタスクの知識カスタマイズを維持します。
ProQAは、フルデータの微調整、数ショットの学習、ゼロショットテストシナリオの両方のパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2022-05-09T04:59:26Z) - Retrieving and Reading: A Comprehensive Survey on Open-domain Question
Answering [62.88322725956294]
OpenQAの最近の研究動向を概観し、特にニューラルMSC技術を導入したシステムに注目した。
Retriever-Reader' と呼ばれる最新の OpenQA アーキテクチャを導入し、このアーキテクチャに従うさまざまなシステムを分析します。
次に、OpenQAシステムの開発における主要な課題について議論し、一般的に使用されるベンチマークの分析を提供する。
論文 参考訳(メタデータ) (2021-01-04T04:47:46Z) - Unsupervised Question Decomposition for Question Answering [102.56966847404287]
本論文では, ワンツーNアン教師付きシーケンスシーケンス(ONUS)のアルゴリズムを提案する。
当初,ドメイン外,マルチホップ開発セットのベースラインが強かったため,HotpotQAでは大きなQA改善が見られた。
論文 参考訳(メタデータ) (2020-02-22T19:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。