論文の概要: BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?
- arxiv url: http://arxiv.org/abs/2603.03194v1
- Date: Tue, 03 Mar 2026 17:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.90315
- Title: BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?
- Title(参考訳): BeyondSWE: 現在のコードエージェントは単一リポジトリバグの修正を超えて生き残れるか?
- Authors: Guoxin Chen, Fanzhe Meng, Jiale Zhao, Minghao Li, Daixuan Cheng, Huatong Song, Jie Chen, Yuzhi Lin, Hui Chen, Xin Zhao, Ruihua Song, Chang Liu, Cheng Chen, Kai Jia, Ji-Rong Wen,
- Abstract要約: BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
- 参考スコア(独自算出の注目度): 61.247730037229815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmarks for code agents primarily assess narrow, repository-specific fixes, overlooking critical real-world challenges such as cross-repository reasoning, domain-specialized problem solving, dependency-driven migration, and full-repository generation. To address this gap, we introduce BeyondSWE, a comprehensive benchmark that broadens existing evaluations along two axes - resolution scope and knowledge scope - using 500 real-world instances across four distinct settings. Experimental results reveal a significant capability gap: even frontier models plateau below 45% success, and no single model performs consistently across task types. To systematically investigate the role of external knowledge, we develop SearchSWE, a framework that integrates deep search with coding abilities. Our experiments show that search augmentation yields inconsistent gains and can in some cases degrade performance, highlighting the difficulty of emulating developer-like workflows that interleave search and reasoning during coding tasks. This work offers both a realistic, challenging evaluation benchmark and a flexible framework to advance research toward more capable code agents.
- Abstract(参考訳): コードエージェントの現在のベンチマークでは、クロスリポジトリ推論、ドメイン特化問題解決、依存性駆動移行、フルリポジトリ生成といった重要な現実的な課題を見越して、狭義のリポジトリ固有の修正を主に評価している。
このギャップに対処するために,4つの異なる設定で500の現実世界インスタンスを使用して,2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する,包括的なベンチマークであるBeyondSWEを紹介した。
実験結果から,フロンティアモデルでさえ45%未満の成功率を示し,タスクタイプ間で一貫して機能するモデルは存在しない。
外部知識の役割を体系的に研究するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
実験の結果,検索の強化は不整合的な向上をもたらし,場合によっては性能を低下させる可能性を示し,コーディング作業中に検索と推論をインターリーブする開発者のようなワークフローをエミュレートする難しさを浮き彫りにした。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
関連論文リスト
- Benchmarking Agents in Insurance Underwriting Environments [0.9728664856449597]
既存のベンチマークは、コードのようなオープンドメインを過度に強調し、狭い精度のメトリクスを使い、真の複雑さを欠いている。
我々は、ドメインエキスパートとの密接なコラボレーションのために設計された、専門家優先のマルチターン保険書記ベンチマークUNDERWRITEを提案する。
論文 参考訳(メタデータ) (2026-01-31T02:12:11Z) - InnovatorBench: Evaluating Agents' Ability to Conduct Innovative LLM Research [36.46396692622759]
InnovatorBenchは、LLM(Large Language Model)研究を行うエージェントの現実的なエンドツーエンド評価のためのベンチマークプラットフォームである。
データ・コンストラクション、フィルタリング、拡張、ロス・デザイン、リワード・デザイン、スカフォード・コンストラクションにまたがる20のタスクで構成されている。
我々はまた、リッチなアクションスペース、分散された長期実行、非同期監視、スナップショット保存を提供するResearchGymの開発も行っている。
論文 参考訳(メタデータ) (2025-10-31T16:22:23Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。