論文の概要: Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute
- arxiv url: http://arxiv.org/abs/2503.23803v1
- Date: Mon, 31 Mar 2025 07:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:32.075000
- Title: Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute
- Title(参考訳): より長く、より大きくない - テスト時間コンピューティングのスケーリングによるソフトウェアエンジニアリングエージェントの強化
- Authors: Yingwei Ma, Binhua Li, Yihong Dong, Xue Jiang, Rongyu Cao, Jue Chen, Fei Huang, Yongbin Li,
- Abstract要約: より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
- 参考スコア(独自算出の注目度): 61.00662702026523
- License:
- Abstract: Recent advancements in software engineering agents have demonstrated promising capabilities in automating program improvements. However, their reliance on closed-source or resource-intensive models introduces significant deployment challenges in private environments, prompting a critical question: \textit{How can personally deployable open-source LLMs achieve comparable code reasoning performance?} To this end, we propose a unified Test-Time Compute scaling framework that leverages increased inference-time computation instead of larger models. Our framework incorporates two complementary strategies: internal TTC and external TTC. Internally, we introduce a \textit{development-contextualized trajectory synthesis} method leveraging real-world software repositories to bootstrap multi-stage reasoning processes, such as fault localization and patch generation. We further enhance trajectory quality through rejection sampling, rigorously evaluating trajectories along accuracy and complexity. Externally, we propose a novel \textit{development-process-based search} strategy guided by reward models and execution verification. This approach enables targeted computational allocation at critical development decision points, overcoming limitations of existing "end-point only" verification methods. Evaluations on SWE-bench Verified demonstrate our \textbf{32B model achieves a 46\% issue resolution rate}, surpassing significantly larger models such as DeepSeek R1 671B and OpenAI o1. Additionally, we provide the empirical validation of the test-time scaling phenomenon within SWE agents, revealing that \textbf{models dynamically allocate more tokens to increasingly challenging problems}, effectively enhancing reasoning capabilities. We publicly release all training data, models, and code to facilitate future research. https://github.com/yingweima2022/SWE-Reasoner
- Abstract(参考訳): ソフトウェアエンジニアリングエージェントの最近の進歩は、プログラム改善の自動化における有望な能力を示している。
しかし、クローズドソースまたはリソース集約モデルへの依存は、プライベート環境における重大なデプロイメント上の課題をもたらす。
この目的のために我々は,大規模モデルではなく,増大する推論時間計算を活用する,統合されたテスト時コンピューティングスケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
内部的には、実世界のソフトウェアリポジトリを利用して、故障の局所化やパッチ生成などの多段階推論プロセスをブートストラップする。
我々は, 軌道の精度と複雑さを厳格に評価し, 拒絶サンプリングにより軌道の質をさらに高める。
提案手法は,報酬モデルと実行検証によって導かれる新しい「textit{development-process-based search」戦略である。
このアプローチは、既存の「エンドポイントのみ」検証手法の限界を克服し、重要な開発決定点における目標計算割り当てを可能にする。
SWE-bench Verified の評価では,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る46 %の課題解決率を達成した。
さらに、SWEエージェント内でのテスト時間スケーリング現象の実証検証を行い、より困難な問題により多くのトークンを動的に割り当て、推論能力を効果的に向上することを明らかにする。
将来の研究を促進するために、トレーニングデータ、モデル、コードをすべて公開しています。
https://github.com/yingweima2022/SWE-Reasoner
関連論文リスト
- BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - On Accelerating Edge AI: Optimizing Resource-Constrained Environments [1.7355861031903428]
リソース制約のあるエッジデプロイメントでは、厳格な計算、メモリ、エネルギー制限とハイパフォーマンスのバランスをとるAIソリューションが要求される。
本稿では,このような制約下でのディープラーニングモデルを加速するための主要な戦略について概観する。
論文 参考訳(メタデータ) (2025-01-25T01:37:03Z) - Outcome-Refining Process Supervision for Code Generation [28.6680126802249]
大規模言語モデルは、深いアルゴリズム推論を必要とする複雑なプログラミングタスクに苦しむ。
本稿では,成果改善自体を監督するプロセスとして扱う新しいパラダイムであるアウトカム・リフィニング・プロセス・スーパービジョンを提案する。
このアプローチは,5つのモデルと3つのデータセットに対して,平均26.9%の精度向上と42.2%の効率向上を実現している。
論文 参考訳(メタデータ) (2024-12-19T17:59:42Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation [14.786100203787194]
大規模な言語モデルは、単純なコード生成タスクでは例外的なパフォーマンスを示しますが、複雑な問題に対処する上での課題に直面します。
本稿では,高品質な中間推論経路を自律的に生成するモデルであるSRA-MCTSを提案する。
我々の手法は、追加の監督を必要とせず、モデル自体を通して完全に機能する。
論文 参考訳(メタデータ) (2024-11-17T12:31:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Self-Admitted Technical Debt Detection Approaches: A Decade Systematic Review [5.670597842524448]
技術的負債 (Technical debt, TD) とは、ソフトウェア開発において、最適な設計やコード決定に関連する長期的なコストを表す用語である。
開発者がこれらのトレードオフを明確に認めると、SATD(Self-Admitted Technical Debt)が発生する。
SATDの自動検出は、ますます重要な研究領域となっている。
論文 参考訳(メタデータ) (2023-12-19T12:01:13Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。