論文の概要: SWE-QA: A Dataset and Benchmark for Complex Code Understanding
- arxiv url: http://arxiv.org/abs/2604.24814v1
- Date: Mon, 27 Apr 2026 12:56:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.516577
- Title: SWE-QA: A Dataset and Benchmark for Complex Code Understanding
- Title(参考訳): SWE-QA: 複雑なコード理解のためのデータセットとベンチマーク
- Authors: Laïla Elkoussy, Julien Perez,
- Abstract要約: マルチホップコード理解のベンチマークを目的としたテキストとコードコーパスであるSWE-QAを紹介する。
データセットは、SWE-benchの12のPythonリポジトリから体系的に生成された9,072の多重選択質問からなる。
デンスアーキテクチャは、エキスパートの混合モデルよりも10~14ポイント優れており、推論の強化されたバリエーションは一貫性のない利点を示している。
- 参考スコア(独自算出の注目度): 4.049272375488184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce SWE-QA, a text and code corpus aimed at benchmarking multi-hop code comprehension, addressing the gap between simplified evaluation tasks and the complex reasoning required in real-world software development. While existing code understanding benchmarks focus on isolated snippets, developers must routinely connect information across multiple dispersed code segments. The dataset comprises 9,072 multiple-choice questions systematically generated from 12 Python repositories of SWE-bench, evaluating several recurrent reasoning patterns like Declaration-and-Call questions that link entity definitions to their usage, and Interacting-Entity questions that examine the dynamic relationships among multiple collaborating components. Generated through parsing-based entity extraction and Large Language Model assisted question construction with carefully validated distractors, the benchmark distinguishes genuine comprehension from superficial pattern matching. Evaluation of 15 language models (360M to 671B parameters) reveals significant challenges in multi-hop reasoning, with best performance reaching 74.41% accuracy. Dense architectures consistently outperform mixture-of-experts models by 10-14 percentage points, while reasoning-enhanced variants show inconsistent benefits.
- Abstract(参考訳): 本稿では,マルチホップコード理解のベンチマークを目的としたテキストとコードコーパスであるSWE-QAを紹介する。
既存のコード理解ベンチマークは分離されたスニペットに焦点を当てているが、開発者は定期的に複数の分散コードセグメントに情報を接続する必要がある。
データセットは、SWE-benchの12のPythonリポジトリからシステマティックに生成された9,072の多重選択質問からなり、エンティティ定義と使用法をリンクする宣言とコールの質問や、複数の協調コンポーネント間の動的関係を調べる対話的エンティティの質問など、いくつかの反復的推論パターンを評価している。
解析に基づくエンティティ抽出とLarge Language Modelによる質問構築を慎重に検証し,実際の理解を表面的パターンマッチングと区別する。
15の言語モデル (360M から 671B のパラメータ) の評価は、マルチホップ推論において重要な課題を示し、最高の性能は74.41%の精度に達した。
デンスアーキテクチャは、エキスパートの混合モデルよりも10~14ポイント優れており、推論の強化されたバリエーションは一貫性のない利点を示している。
関連論文リスト
- From Questions to Queries: An AI-powered Multi-Agent Framework for Spatial Text-to-SQL [0.4499833362998488]
単一エージェントアプローチは、空間的クエリのセマンティックおよび構文的複雑さにしばしば苦労する。
本稿では,自然言語質問を空間的クエリに正確に翻訳するためのマルチエージェントフレームワークを提案する。
我々は,非空間的KaggleDBQAベンチマークと包括的SpatialQAベンチマークを用いて,本システムの評価を行った。
論文 参考訳(メタデータ) (2025-10-23T22:58:17Z) - The benefits of query-based KGQA systems for complex and temporal questions in LLM era [55.20230501807337]
大規模言語モデルは質問回答(QA)に優れていますが、マルチホップ推論や時間的質問には苦戦しています。
クエリベースの知識グラフ QA (KGQA) は、直接回答の代わりに実行可能なクエリを生成するモジュール形式の代替手段を提供する。
WikiData QAのためのマルチステージクエリベースのフレームワークについて検討し、課題のあるマルチホップと時間ベンチマークのパフォーマンスを向上させるマルチステージアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-16T06:41:03Z) - CoRe: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks [14.408364047538578]
大規模言語モデル(LLM)は、ソフトウェア工学の様々な領域で広く採用されている。
この研究は、基本的な静的解析タスク上でのLCMを評価するために設計されたベンチマークであるCOREを提示する。
論文 参考訳(メタデータ) (2025-07-03T01:35:58Z) - KG-QAGen: A Knowledge-Graph-Based Framework for Systematic Question Generation and Long-Context LLM Evaluation [3.618621510356872]
KG-QAGenは、複数の複雑性レベルでQAペアを抽出するフレームワークである。
20,139のQAペアのデータセットを構築し、その一部をオープンソース化する。
我々は、13のプロプライエタリかつオープンソースのLCMを評価し、最高の性能のモデルでさえ、セットベース比較に苦戦していることを観察する。
論文 参考訳(メタデータ) (2025-05-18T16:46:39Z) - MHTS: Multi-Hop Tree Structure Framework for Generating Difficulty-Controllable QA Datasets for RAG Evaluation [5.525151548786079]
既存のRAGベンチマークはクエリの難しさを見落とし、単純な質問や信頼性の低い評価でパフォーマンスが膨らむ。
MHTS(Multi-Hop Tree Structure)は、マルチホップツリー構造を利用して、論理的に連結されたマルチチャンククエリを生成することで、マルチホップ推論の複雑さを制御する新しいデータセット合成フレームワークである。
論文 参考訳(メタデータ) (2025-03-29T06:26:01Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - SUN: Exploring Intrinsic Uncertainties in Text-to-SQL Parsers [61.48159785138462]
本稿では,ニューラルネットワークに基づくアプローチ(SUN)における本質的な不確かさを探索することにより,テキストから依存への変換性能を向上させることを目的とする。
5つのベンチマークデータセットの大規模な実験により、我々の手法は競合より大幅に優れ、新しい最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-09-14T06:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。