Fugu-MT 論文翻訳(概要): SWE-TRACE: Optimizing Long-Horizon SWE Agents Through Rubric Process Reward Models and Heuristic Test-Time Scaling

論文の概要: SWE-TRACE: Optimizing Long-Horizon SWE Agents Through Rubric Process Reward Models and Heuristic Test-Time Scaling

arxiv url: http://arxiv.org/abs/2604.14820v1
Date: Thu, 16 Apr 2026 09:41:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.830802
Title: SWE-TRACE: Optimizing Long-Horizon SWE Agents Through Rubric Process Reward Models and Heuristic Test-Time Scaling
Title（参考訳）: SWE-TRACE:Rubric Process Reward ModelとHuristic Test-Time Scalingによる長期SWEエージェントの最適化
Authors: Hao Han, Jin Xie, Xuehao Ma, Weiquan Zhu, Ziyao Zhang, ZhiLiang Long, Hongkai Chen, Qingwen Ye,
Abstract要約: 現在のパイプラインは、最適化されていないデモデータ、スパース実行報酬、計算的に禁止された推論スケーリングによってボトルネックされる。 SWE-TRACEはデータキュレーション、強化学習(RL)、テスト時間推論にまたがるSWEエージェントライフサイクルを最適化する統合フレームワークである。標準SWEベンチマークの実験により、SWE-TRACEは、両方のトークン消費推論遅延を大幅に削減しつつ、解決率を最大化し、最先端の精度を大幅に向上することが示された。
参考スコア（独自算出の注目度）: 13.335296846555204
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Resolving real-world software engineering (SWE) issues with autonomous agents requires complex, long-horizon reasoning. Current pipelines are bottlenecked by unoptimized demonstration data, sparse execution rewards, and computationally prohibitive inference scaling, which collectively exacerbate token bloat, reward hacking, and policy degradation. We present SWE-TRACE (Trajectory Reduction and Agentic Criteria Evaluation), a unified framework optimizing the SWE agent lifecycle across data curation, reinforcement learning (RL), and test-time inference. First, we introduce an LLM multi-task cascading method, utilizing stepwise oracle verification to distill a 60K-instance Supervised Fine-Tuning (SFT) corpus strictly biased toward token-efficient, shortest-path trajectories. Second, to overcome the instability of sparse outcome rewards, we design a MemoryAugmented Agentic RL pipeline featuring a Rubric-Based Process Reward Model (PRM). An auxiliary Rubric-Agent provides dense, fine-grained heuristic feedback on intermediate steps, guiding the model through long-horizon tasks. Finally, we bridge training and inference by repurposing the PRM for heuristic-guided Test-Time Scaling (TTS). By dynamically evaluating and pruning action candidates at each step, SWE-TRACE achieves superior search efficiency without the latency overhead of standard parallel sampling. Extensive experiments on standard SWE benchmarks demonstrate that SWE-TRACE significantly advances the state-of-the-art, maximizing resolution rates while drastically reducing both token consumption and inference latency.
Abstract（参考訳）: 自律エージェントによる現実世界のソフトウェアエンジニアリング(SWE)の問題を解決するには、複雑で長期にわたる推論が必要である。現在のパイプラインは、最適化されていないデモデータ、スパース実行報酬、計算的に禁止された推論スケーリングによってボトルネックされる。本稿では,SWEエージェントのライフサイクルをデータキュレーション,強化学習(RL),テスト時間推論で最適化する統合フレームワークであるSWE-TRACE(Trajectory Reduction and Agentic Criteria Evaluation)を提案する。まず, トークン効率, 最短パス軌道に偏りが強い60K-instance Supervised Fine-Tuning (SFT)コーパスを蒸留するために, 段階的にオラクル検証を利用する多タスクカスケード法を提案する。第二に、スパース結果報酬の不安定性を克服するため、Rubric-Based Process Reward Model (PRM) を備えたMemoryAugmented Agentic RLパイプラインを設計する。補助的なRubric-Agentは、中間ステップに対して密できめ細かなヒューリスティックなフィードバックを提供し、長い水平タスクを通じてモデルを導く。最後に、ヒューリスティック誘導テスト時間スケーリング(TTS)のためのPRMを再利用することで、トレーニングと推論をブリッジする。 SWE-TRACEは,各ステップで動作候補を動的に評価し,解析することにより,標準並列サンプリングの遅延オーバーヘッドを伴わずに,より優れた探索効率を実現する。標準SWEベンチマークの大規模な実験により、SWE-TRACEは、トークン消費と推論遅延の両方を大幅に削減しつつ、最先端の解決率を大幅に向上することが示された。

関連論文リスト

SWE-Shepherd: Advancing PRMs for Reinforcing Code Agents [0.31034395048547575]
既存のアプローチは、コード編集、ファイルナビゲーション、テスト実行などのアクションを選択するための静的なプロンプト戦略や手作業に依存している。本稿では,プロセス・リワード・モデル(Process Reward Models,PRM)を導入するフレームワークであるSWE-Shepherdを提案する。 SWE-Bench Verifiedの実験では、インタラクション効率とアクション品質の改善に加えて、中間報酬と最終タスク成功の整合性の課題も強調されている。
論文参考訳（メタデータ） (2026-04-12T06:51:47Z)
Agentic Test-Time Scaling for WebAgents [65.5178428849495]
CATTS(Confidence-Aware Test-Time Scaling)を提案する。 CATTSは、WebArena-LiteとGoBrowseのパフォーマンスをReact上で最大9.1%改善し、均一なスケーリングよりも最大2.3倍少ないトークンを使用する。
論文参考訳（メタデータ） (2026-02-12T18:58:30Z)
SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents [12.355536750226555]
ソフトウェアエンジニアリングタスクにおけるLarge Language Model (LLM)エージェントの能力を高めるために、テストタイムスケーリングが広く採用されている。 SWE-Replayは、潜在的ノイズ値の推定に頼らずに、現代のエージェントに対して、最初の効率的で一般化可能なテスト時間スケーリング手法である。評価の結果, SWE-Bench Verifiedでは, SWE-Replayのスケーリング性能は一貫して優れており, コストは最大17.4%削減され, 性能は最大3.8%向上した。
論文参考訳（メタデータ） (2026-01-29T18:50:29Z)
Scaling Unverifiable Rewards: A Case Study on Visual Insights [29.54766251030519]
大規模言語モデル(LLM)エージェントは、テスト時間スケーリング(TTS)を通じて複雑な推論を自動化することができる。 Selective TTSは、マルチエージェントパイプラインの異なるステージにまたがって推論をスケールするプロセスベースの精錬フレームワークである。提案した選択的TSは,計算予算の固定化により洞察品質を向上し,平均スコアを61.64から65.86に向上し,分散を低減した。
論文参考訳（メタデータ） (2025-12-27T17:01:38Z)
Enhancing Agentic RL with Progressive Reward Shaping and Value-based Sampling Policy Optimization [13.475938754147625]
Tool-Integrated Reasoning (TIR)で強化されたLarge Language Models (LLM)は、反復的に計画し、外部ツールを呼び、返却された情報を統合して、複雑な長期的推論タスクを解決する。エージェント強化学習(Agentic RL)は、ツール・インタラクションの完全な軌跡よりも、そのようなモデルを最適化する。 1)バイナリ0-1検証信号のようなスパースで非インストラクティブな報酬は、中間ステップの限られたガイダンスと緩やかな収束を与える。本稿では,PRS(Progressive Reward Shaping)とVSPO(Value-based Sampling Policy Optimization)の2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-12-08T11:59:25Z)
Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。 Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文参考訳（メタデータ） (2025-09-28T13:27:38Z)
EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。 ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-09-16T03:00:13Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。 SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。 SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。