論文の概要: CodeScout: Contextual Problem Statement Enhancement for Software Agents
- arxiv url: http://arxiv.org/abs/2603.05744v1
- Date: Thu, 05 Mar 2026 23:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.688752
- Title: CodeScout: Contextual Problem Statement Enhancement for Software Agents
- Title(参考訳): CodeScout: ソフトウェアエージェントのコンテキスト問題ステートメントの強化
- Authors: Manan Suri, Xiangci Li, Mehdi Shojaie, Songyang Han, Chao-Chun Hsu, Shweta Garg, Aniket Anand Deshmukh, Varun Kumar,
- Abstract要約: 現在のAIによるコードアシストツールは、しばしば未定義の問題ステートメントに悩まされる。
CodeScoutは、コンテキストクエリの改良手法である。
CodeScoutは、未特定のユーザリクエストを包括的で実行可能な問題ステートメントに変換する。
- 参考スコア(独自算出の注目度): 14.947634004976505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current AI-powered code assistance tools often struggle with poorly-defined problem statements that lack sufficient task context and requirements specification. Recent analysis of software engineering agents reveals that failures on such underspecified requests are highly correlated with longer trajectories involving either over-exploration or repeated attempts at applying the same fix without proper evolution or testing, leading to suboptimal outcomes across software development tasks. We introduce CodeScout, a contextual query refinement approach that systematically converts underspecified user requests into comprehensive, actionable problem statements through lightweight pre-exploration of the target codebase. Our key innovation is demonstrating that structured analysis before task execution can supplement existing agentic capabilities without requiring any modifications to their underlying scaffolds. CodeScout performs targeted context scoping, conducts multi-perspective analysis examining potential fixes and exploration opportunities, then synthesizes these insights into enhanced problem statements with reproduction steps, expected behaviors, and targeted exploration hints. This pre-exploration directly addresses the identified failure patterns by reducing non-converging agent trajectories while clarifying user intent in natural language space. We evaluate CodeScout using state-of-the-art agentic scaffolds and language models on SWEBench-Verified, demonstrating a 20\% improvement in resolution rates with up to 27 additional issues resolved compared to the default baseline method. Our results suggest that systematic query refinement through contextual analysis represents a promising direction for enhancing AI code assistance capabilities.
- Abstract(参考訳): 現在のAIによるコードアシストツールは、十分なタスクコンテキストと要求仕様が欠如している不明確な問題ステートメントに悩まされることが多い。
ソフトウェアエンジニアリングエージェントの最近の分析によると、そのような不特定要求に対する障害は、過度に探索されたり、適切な進化やテストなしに同じ修正を適用しようとする繰り返しの試みを含む長い軌道と非常に相関している。
CodeScoutは,未指定のユーザ要求を,対象コードベースの軽量な事前探索を通じて,包括的で実行可能な問題ステートメントに体系的に変換する,コンテキストクエリ改善手法である。
私たちの重要なイノベーションは、タスク実行前の構造化分析が、基盤となる足場を変更することなく、既存のエージェント機能を補完できることを示しています。
CodeScoutは、ターゲットのコンテキストスコーピングを実行し、潜在的な修正や探索の機会をマルチパースペクティブに分析し、これらの洞察を再現手順、期待された振る舞い、ターゲットの探索ヒントで強化された問題ステートメントに合成する。
この事前探索は、自然言語空間におけるユーザの意図を明確にしつつ、非収束エージェントの軌道を減らし、特定された障害パターンに直接対処する。
我々は、SWEBench-Verified上で、最先端のエージェントスキャフォールドと言語モデルを用いてCodeScoutを評価し、デフォルトのベースライン法と比較して最大27の問題を解決した。
この結果から,文脈分析による体系的なクエリ改善が,AIコード支援能力向上の有望な方向であることを示唆した。
関連論文リスト
- XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights [0.0]
我々は、生エージェントの実行トレースを構造化された人間解釈可能な説明に変換する、体系的な説明可能なAI(XAI)アプローチを提案する。
提案手法では,障害原因の同定を2.8倍高速に行うことができ,実際の実行トレースよりも73%高い精度で修正を提案する。
論文 参考訳(メタデータ) (2026-03-06T06:18:20Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories [10.751728274263536]
本稿では,エージェントのトラジェクトリ,すなわちソフトウェア問題の解決に際し,エージェントが行うステップを捉えた実行トレースについて,実証的研究を行う。
我々は、SWE-Benchベンチマークで、最先端の3つのコードエージェント(OpenHands、SWE-agent、Prometheus)の軌跡を分析し、成功と失敗の両方について検討した。
論文 参考訳(メタデータ) (2025-10-31T18:58:13Z) - A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。
本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文 参考訳(メタデータ) (2025-10-10T06:56:50Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - Illuminating LLM Coding Agents: Visual Analytics for Deeper Understanding and Enhancement [16.472150248814767]
我々は,コーディングエージェントの動作の検査を強化するために,視覚分析システムを導入する。
我々のシステムでは,ML科学者がエージェントの動作に関する構造化された理解を得ることが可能である。
論文 参考訳(メタデータ) (2025-08-18T01:17:11Z) - Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。
本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文 参考訳(メタデータ) (2025-07-14T08:36:26Z) - Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [17.975121612118752]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。
本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
我々は,数量やトークン消費,反復的な行動系列,思考,行動,結果のセマンティックコヒーレンスといった重要な軌道特性を同定する。
論文 参考訳(メタデータ) (2025-06-23T16:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。