論文の概要: SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding
- arxiv url: http://arxiv.org/abs/2603.16124v1
- Date: Tue, 17 Mar 2026 05:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.105313
- Title: SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding
- Title(参考訳): SWE-QA-Pro:リポジトリレベルのコード理解のための代表的なベンチマークとスケーラブルなトレーニングレシピ
- Authors: Songcheng Cai, Zhiheng Lyu, Yuansheng Ni, Xiangchao Chen, Baichuan Zhou, Shenzhe Zhu, Yi Lu, Haozhe Wang, Chi Ruan, Benjamin Schneider, Weixu Zhang, Xiang Li, Andy Zheng, Yuyu Zhang, Ping Nie, Wenhu Chen,
- Abstract要約: SWEQA-Proは,多種多様な長期リポジトリと実行可能な環境から構築されたベンチマークである。
さらに,2段階のトレーニングレシピであるSupervised Fine-Tuning(SFT)とReinforcement Learning from AI Feedback(RLAIF)という,スケーラブルな合成データパイプラインを提案する。
SWE-QA-ProのGPT-4oを2.3ポイント超え、最先端モデルとのギャップを大幅に狭める。
- 参考スコア(独自算出の注目度): 41.98672557723593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic repository-level code understanding is essential for automating complex software engineering tasks, yet the field lacks reliable benchmarks. Existing evaluations often overlook the long tail topics and rely on popular repositories where Large Language Models (LLMs) can cheat via memorized knowledge. To address this, we introduce SWE-QA-Pro, a benchmark constructed from diverse, long-tail repositories with executable environments. We enforce topical balance via issue-driven clustering to cover under-represented task types and apply a rigorous difficulty calibration process: questions solvable by direct-answer baselines are filtered out. This results in a dataset where agentic workflows significantly outperform direct answering (e.g., a ~13-point gap for Claude Sonnet 4.5), confirming the necessity of agentic codebase exploration. Furthermore, to tackle the scarcity of training data for such complex behaviors, we propose a scalable synthetic data pipeline that powers a two-stage training recipe: Supervised Fine-Tuning (SFT) followed by Reinforcement Learning from AI Feedback (RLAIF). This approach allows small open models to learn efficient tool usage and reasoning. Empirically, a Qwen3-8B model trained with our recipe surpasses GPT-4o by 2.3 points on SWE-QA-Pro and substantially narrows the gap to state-of-the-art proprietary models, demonstrating both the validity of our evaluation and the effectiveness of our agentic training workflow.
- Abstract(参考訳): 複雑なソフトウェアエンジニアリングタスクを自動化するにはエージェントレベルのコード理解が不可欠だが、その分野には信頼性のあるベンチマークがない。
既存の評価は、長い尾のトピックを見落とし、大きな言語モデル(LLM)が記憶された知識によって騙されるような一般的なリポジトリに依存していることが多い。
そこで本研究では,SWE-QA-Proについて紹介する。
課題駆動型クラスタリングによるトピックバランスの実施により、未表現のタスクタイプをカバーし、厳密な難易度校正プロセスを適用し、直接回答ベースラインで解決可能な質問をフィルタリングする。
この結果、エージェントワークフローが直接応答(例えば、Claude Sonnet 4.5の13ポイントのギャップ)を著しく上回り、エージェントコードベース探索の必要性を確認するデータセットが生成される。
さらに,このような複雑な動作に対するトレーニングデータの不足に対処するために,2段階のトレーニングレシピであるSupervised Fine-Tuning (SFT) とReinforcement Learning from AI Feedback (RLAIF) の2段階からなるスケーラブルな合成データパイプラインを提案する。
このアプローチにより、小さなオープンモデルで効率的なツールの使用と推論を学ぶことができる。
提案手法を応用したQwen3-8Bモデルは,SWE-QA-ProでGPT-4oを2.3ポイント超え,最先端のプロプライエタリモデルとのギャップを大幅に狭くし,評価の有効性とエージェントトレーニングワークフローの有効性を実証した。
関連論文リスト
- ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models [18.359969463106644]
検証可能な報酬付き強化学習(RLVR)は、推論言語モデル(RLM)を訓練するための有望なアプローチとして登場した。
本研究では、インスタンスジェネレータと検証器を備えた多様な推論環境を生成するパイプラインであるReSynを導入することにより、RLVRをスケールする。
論文 参考訳(メタデータ) (2026-02-23T18:34:29Z) - CoSineVerifier: Tool-Augmented Answer Verification for Computation-Oriented Scientific Questions [32.14674040685995]
本稿では,外部ルーリックを利用して正確な計算と記号の単純化を行うツール拡張検証器モデルを提案する。
STEM科目、一般QA、長文推論タスクで行った実験は、モデルの強力な一般化を示している。
論文 参考訳(メタデータ) (2025-12-01T03:08:43Z) - Learning to Refine: An Agentic RL Approach for Iterative SPARQL Query Construction [0.18907108368038208]
現在のメソッドでは、リアルタイム実行フィードバックに基づいてクエリを動的にデバッグするために必要なアダプティブポリシーが欠如している。
本稿では,LLMが繰り返しSPARQL構築のシーケンシャルなプロセスに対してレジリエントなポリシーを学習する,新しいエージェント・フレームワークを提案する。
結果駆動型強化学習(GRPO)によってのみ訓練されたコンパクトな3B-パラメータモデルが,このタスクの効果的なポリシを学習可能であることを示す。
論文 参考訳(メタデータ) (2025-11-14T08:44:58Z) - Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models [64.49342399229529]
我々は、ポストホック帰属を推論問題として再編成し、回答を構成単位に分解し、それぞれ特定の文脈に結び付けることができると論じる。
DecompTuneは、モデルに中間的推論ステップとして解解分解を生成することを教えるポストトレーニング手法である。
DecompTuneは、広範な実験と改善を通じて、属性の品質を大幅に改善し、先行手法より優れ、最先端のフロンティアモデルに適合または超えている。
論文 参考訳(メタデータ) (2025-10-29T17:58:59Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。