論文の概要: EGSS: Entropy-guided Stepwise Scaling for Reliable Software Engineering
- arxiv url: http://arxiv.org/abs/2602.05242v1
- Date: Thu, 05 Feb 2026 03:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.734869
- Title: EGSS: Entropy-guided Stepwise Scaling for Reliable Software Engineering
- Title(参考訳): EGSS: 信頼性の高いソフトウェアエンジニアリングのためのエントロピー誘導ステップワイドスケーリング
- Authors: Chenhui Mao, Yuanting Lei, Zhixiang Wei, Ming Liang, Zhixiang Wang, Jingxuan Xu, Dajun Chen, Wei Jiang, Yong Li,
- Abstract要約: Agentic Test-Time Scaling (TTS)は、コード生成やバグ修正といった複雑なソフトウェアエンジニアリングタスクに対して、最先端のSOTA(State-of-the-art)パフォーマンスを提供する。
本稿では,エントロピー誘導型適応探索と堅牢なテストスイート拡張により効率と効率のバランスをとる新しいTTSフレームワークであるEntropy-Guided Stepwise Scaling (EGSS)を提案する。
- 参考スコア(独自算出の注目度): 14.718324012970944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic Test-Time Scaling (TTS) has delivered state-of-the-art (SOTA) performance on complex software engineering tasks such as code generation and bug fixing. However, its practical adoption remains limited due to significant computational overhead, primarily driven by two key challenges: (1) the high cost associated with deploying excessively large ensembles, and (2) the lack of a reliable mechanism for selecting the optimal candidate solution, ultimately constraining the performance gains that can be realized. To address these challenges, we propose Entropy-Guided Stepwise Scaling (EGSS), a novel TTS framework that dynamically balances efficiency and effectiveness through entropy-guided adaptive search and robust test-suite augmentation. Extensive experiments on SWE-Bench-Verified demonstrate that EGSS consistently boosts performance by 5-10% across all evaluated models. Specifically, it increases the resolved ratio of Kimi-K2-Intruct from 63.2% to 72.2%, and GLM-4.6 from 65.8% to 74.6%. Furthermore, when paired with GLM-4.6, EGSS achieves a new state-of-the-art among open-source large language models. In addition to these accuracy improvements, EGSS reduces inference-time token usage by over 28% compared to existing TTS methods, achieving simultaneous gains in both effectiveness and computational efficiency.
- Abstract(参考訳): Agentic Test-Time Scaling (TTS)は、コード生成やバグ修正といった複雑なソフトウェアエンジニアリングタスクに対して、最先端のSOTA(State-of-the-art)パフォーマンスを提供する。
しかし、その実用的採用は、主に、(1)過大なアンサンブルの展開に伴う高コスト、(2)最適な候補解を選択するための信頼性の高いメカニズムの欠如、そして最終的には実現可能な性能向上の制約という2つの大きな課題によって引き起こされる。
これらの課題に対処するために,エントロピー誘導型適応探索とロバストなテストスーツ拡張により効率と効率を動的にバランスさせる新しいTTSフレームワークであるEntropy-Guided Stepwise Scaling (EGSS)を提案する。
SWE-Bench-Verifiedに関する大規模な実験は、EGSSがすべての評価モデルに対して、一貫してパフォーマンスを5~10%向上させることを示した。
具体的には、Kim-K2-Intructの分解率は63.2%から72.2%に増加し、GLM-4.6は65.8%から74.6%に増加した。
さらに、GLM-4.6と組み合わせると、EGSSはオープンソースの大規模言語モデルの間で新しい最先端技術を実現している。
これらの精度の改善に加えて、EGSSは既存のTS法と比較して、推論時トークンの使用率を28%以上削減し、有効性と計算効率の両面で同時に向上する。
関連論文リスト
- SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - Modified TSception for Analyzing Driver Drowsiness and Mental Workload from EEG [6.767263284839525]
ドライバーの眠気は依然として交通事故の主な原因であり、リアルタイムで信頼性の高い検知システムの開発を必要としている。
本研究は,脳波を用いたドライバ疲労のロバスト評価を目的とした改良型TSceptionアーキテクチャを提案する。
アーキテクチャの一般化性は、STEWのメンタルワークロードデータセットで検証される。
論文 参考訳(メタデータ) (2025-12-25T17:48:11Z) - DEPO: Dual-Efficiency Preference Optimization for LLM Agents [75.6723341304463]
本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。
WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
論文 参考訳(メタデータ) (2025-11-19T12:38:43Z) - IIET: Efficient Numerical Transformer via Implicit Iterative Euler Method [59.02943805284446]
Iterative Implicit Euler Transformer (IIET)
IIADにより、ユーザはパフォーマンス効率のトレードオフを効果的にバランスできる。
E-IIETの変種は、バニラトランスフォーマーよりも平均的なパフォーマンスが1.6%以上向上した。
論文 参考訳(メタデータ) (2025-09-26T15:14:03Z) - ETTRL: Balancing Exploration and Exploitation in LLM Test-Time Reinforcement Learning Via Entropy Mechanism [10.913346263482786]
実験時間強化学習における探索・探索バランスを高めるためのエントロピーに基づくメカニズムを提案する。
ベースラインと比較すると、Llama3.1-8Bは1メートルでのパスの68%の相対的な改善を達成できる。
論文 参考訳(メタデータ) (2025-08-15T09:49:14Z) - Faster and Better LLMs via Latency-Aware Test-Time Scaling [47.3923926808606]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。
既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。
計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文 参考訳(メタデータ) (2025-05-26T07:51:30Z) - Transformers with Joint Tokens and Local-Global Attention for Efficient Human Pose Estimation [34.99437411281915]
本稿では,精度,効率,ロバストな2次元ポーズ推定のための2つのViTモデルを提案する。
6つのベンチマーク実験により,提案手法が最先端手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-02-28T22:34:22Z) - MRSO: Balancing Exploration and Exploitation through Modified Rat Swarm Optimization for Global Optimization [3.7503163440313463]
本研究では,探索と搾取のバランスを高めるため,MRSO(Modified Rat Swarm)を導入する。
MRSOは探索効率と耐久性を改善するために独自の改良を加えており、溶接ビーム、圧力容器、ギヤトレインの設計といった挑戦的な工学的問題に適合している。
CEC 2019ベンチマークでは、MRSOは10機能中6機能で標準RSOよりも優れており、優れたグローバル検索能力を示している。
論文 参考訳(メタデータ) (2024-09-20T14:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。