論文の概要: SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2601.22129v2
- Date: Thu, 05 Feb 2026 03:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.807289
- Title: SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents
- Title(参考訳): SWE-Replay: ソフトウェアエンジニアリングエージェントの効率的なテスト時間スケーリング
- Authors: Yifeng Ding, Lingming Zhang,
- Abstract要約: ソフトウェアエンジニアリングタスクにおけるLarge Language Model (LLM)エージェントの能力を高めるために、テストタイムスケーリングが広く採用されている。
SWE-Replayは、潜在的ノイズ値の推定に頼らずに、現代のエージェントに対して、最初の効率的で一般化可能なテスト時間スケーリング手法である。
評価の結果, SWE-Bench Verifiedでは, SWE-Replayのスケーリング性能は一貫して優れており, コストは最大17.4%削減され, 性能は最大3.8%向上した。
- 参考スコア(独自算出の注目度): 12.355536750226555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling has been widely adopted to enhance the capabilities of Large Language Model (LLM) agents in software engineering (SWE) tasks. However, the standard approach of repeatedly sampling trajectories from scratch is computationally expensive. While recent methods have attempted to mitigate costs using specialized value agents, they can suffer from model miscalibration and fail to generalize to modern agents that synthesize custom bash scripts as tools. In this paper, we introduce SWE-Replay, the first efficient and generalizable test-time scaling technique for modern agents without reliance on potentially noisy value estimates. SWE-Replay optimizes the scaling process by recycling trajectories from prior trials, dynamically choosing to either explore from scratch or exploit archived experience by branching at critical intermediate steps. This selection of intermediate steps is driven by the potential and reasoning significance of repository exploration, rather than external LLM-based quality estimates. Our evaluation shows that, on SWE-Bench Verified, SWE-Replay consistently outperforms naive scaling, reducing costs by up to 17.4% while maintaining or even improving performance by up to 3.8%. Further evaluation on SWE-Bench Pro and Multilingual validates the generalizability of SWE-Replay, establishing it as a robust foundation for efficient test-time scaling of software engineering agents.
- Abstract(参考訳): テストタイムスケーリングは、ソフトウェアエンジニアリング(SWE)タスクにおけるLarge Language Model (LLM)エージェントの機能を高めるために広く採用されている。
しかし, トラジェクトリをスクラッチから繰り返しサンプリングする標準的な手法は, 計算コストが高い。
近年の手法では、特殊値エージェントによるコスト削減が試みられているが、モデル誤校正に悩まされ、カスタムbashスクリプトをツールとして合成する現代的なエージェントへの一般化に失敗することがある。
本稿では,SWE-Replayについて紹介する。SWE-Replayは,潜在的ノイズ値の推定に頼らずに,最新のエージェントに対して,効率的かつ一般化可能なテスト時間スケーリング手法である。
SWE-Replayは、以前の試行からトラジェクトリをリサイクルすることでスケーリングプロセスを最適化し、スクラッチから探索するか、重要な中間ステップで分岐することでアーカイブされたエクスペリエンスを活用するかを動的に選択する。
この中間段階の選択は、外部のLCMに基づく品質推定よりも、リポジトリ探索のポテンシャルと理論的重要性によって引き起こされる。
評価の結果, SWE-Bench Verifiedでは, SWE-Replayのスケーリング性能は一貫して優れており, コストは最大17.4%削減され, 性能は最大3.8%向上した。
SWE-Bench ProとMultilingualのさらなる評価は、SWE-Replayの一般化性を検証し、ソフトウェアエンジニアリングエージェントの効率的なテストタイムスケーリングのための堅牢な基盤として確立している。
関連論文リスト
- Scaling Unverifiable Rewards: A Case Study on Visual Insights [29.54766251030519]
大規模言語モデル(LLM)エージェントは、テスト時間スケーリング(TTS)を通じて複雑な推論を自動化することができる。
Selective TTSは、マルチエージェントパイプラインの異なるステージにまたがって推論をスケールするプロセスベースの精錬フレームワークである。
提案した選択的TSは,計算予算の固定化により洞察品質を向上し,平均スコアを61.64から65.86に向上し,分散を低減した。
論文 参考訳(メタデータ) (2025-12-27T17:01:38Z) - SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - Reinforcement Learning for Machine Learning Engineering Agents [52.03168614623642]
強化学習によって改善される弱いモデルによって支援されるエージェントは、はるかに大きいが静的モデルによって支援されるエージェントよりも優れていることを示す。
分散非同期RLフレームワークにおいて,高コストかつ高利回りな動作を増幅するための時間依存性の勾配更新を提案する。
また,早期に失敗するプログラムとほぼ正しくないプログラムを区別し,部分クレジットを提供する環境機器を提案する。
論文 参考訳(メタデータ) (2025-09-01T18:04:10Z) - Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - SWE-Search: Enhancing Software Agents with Monte Carlo Tree Search and Iterative Refinement [18.84439000902905]
現在の大規模言語モデル(LLM)ベースのソフトウェアエージェントは、しばしば線形でシーケンシャルなプロセスに従う。
モンテカルロ木探索(MCTS)と自己改善機構を統合したマルチエージェントフレームワークであるSWE-Searchを提案する。
これは、複雑なソフトウェアエンジニアリング環境における自己評価駆動検索技術の可能性を強調している。
論文 参考訳(メタデータ) (2024-10-26T22:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。