論文の概要: SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints
- arxiv url: http://arxiv.org/abs/2509.09853v1
- Date: Thu, 11 Sep 2025 21:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.922797
- Title: SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints
- Title(参考訳): SWE-Effi: リソース制約下でのソフトウェアAIエージェントシステムの有効性の再評価
- Authors: Zhiyu Fan, Kirill Vasilevski, Dayi Lin, Boyuan Chen, Yihao Chen, Zhiqing Zhong, Jie M. Zhang, Pinjia He, Ahmed E. Hassan,
- Abstract要約: ソフトウェアエンジニアリングのリーダーボードのための既存のAIは、ソリューションの正確性にのみフォーカスする。
SWE-Effiは、総合的な有効性スコアの観点からAIシステムを再評価する、新しいメトリクスのセットである。
- 参考スコア(独自算出の注目度): 24.279120215338054
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advancement of large language models (LLMs) and code agents has demonstrated significant potential to assist software engineering (SWE) tasks, such as autonomous issue resolution and feature addition. Existing AI for software engineering leaderboards (e.g., SWE-bench) focus solely on solution accuracy, ignoring the crucial factor of effectiveness in a resource-constrained world. This is a universal problem that also exists beyond software engineering tasks: any AI system should be more than correct - it must also be cost-effective. To address this gap, we introduce SWE-Effi, a set of new metrics to re-evaluate AI systems in terms of holistic effectiveness scores. We define effectiveness as the balance between the accuracy of outcome (e.g., issue resolve rate) and the resources consumed (e.g., token and time). In this paper, we specifically focus on the software engineering scenario by re-ranking popular AI systems for issue resolution on a subset of the SWE-bench benchmark using our new multi-dimensional metrics. We found that AI system's effectiveness depends not just on the scaffold itself, but on how well it integrates with the base model, which is key to achieving strong performance in a resource-efficient manner. We also identified systematic challenges such as the "token snowball" effect and, more significantly, a pattern of "expensive failures". In these cases, agents consume excessive resources while stuck on unsolvable tasks - an issue that not only limits practical deployment but also drives up the cost of failed rollouts during RL training. Lastly, we observed a clear trade-off between effectiveness under the token budget and effectiveness under the time budget, which plays a crucial role in managing project budgets and enabling scalable reinforcement learning, where fast responses are essential.
- Abstract(参考訳): 大規模言語モデル(LLM)とコードエージェントの進歩は、自律的な課題解決や機能追加といったソフトウェア工学(SWE)タスクを支援する大きな可能性を示している。
既存のソフトウェアエンジニアリングリーダボード(例:SWE-bench)用のAIは、リソース制約のある世界での有効性の重要な要素を無視して、ソリューションの正確性のみに重点を置いています。
これは、ソフトウェアエンジニアリングのタスクを超えて存在する普遍的な問題である。
このギャップに対処するために、総合的な評価スコアの観点からAIシステムを再評価する新しい指標セットであるSWE-Effiを紹介する。
有効性を、結果の正確性(例えば、課題解決率)と消費されるリソース(例えば、トークンと時間)のバランスとして定義する。
本稿では,SWE-benchベンチマークのサブセットに,一般的なAIシステムを再評価することで,ソフトウェア工学のシナリオに特に着目する。
私たちは、AIシステムの有効性は足場自体に依らず、ベースモデルとどの程度うまく統合されているかにかかっていることに気付きました。
また,「トケン雪玉」効果や,さらに顕著な「エクスペンシブ・失敗」のパターンなど,体系的な課題を明らかにした。
このような場合、エージェントは解決不可能なタスクに固執しながら過剰なリソースを消費します。
最後に、トークン予算の下での有効性と、プロジェクト予算の管理において重要な役割を担い、迅速な応答が不可欠であるスケーラブルな強化学習を可能にする時間予算下での有効性の明確なトレードオフを観察しました。
関連論文リスト
- Machine Learning Pipeline for Software Engineering: A Systematic Literature Review [0.0]
この系統的な文献レビューは、ソフトウェア工学(SE)用に設計された最先端の機械学習パイプラインを検証している。
この結果から,データバランシングのためのSMOTEなどの堅牢な前処理がモデルの信頼性を向上させることが示唆された。
ランダムフォレストやグラディエントブースティングのようなアンサンブルメソッドはタスク間でパフォーマンスを支配します。
Best Arithmetic Mean (BAM)のような新しいメトリクスはニッチなアプリケーションに現れている。
論文 参考訳(メタデータ) (2025-07-31T15:37:30Z) - SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。
本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。
SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文 参考訳(メタデータ) (2025-06-10T17:02:00Z) - The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective [3.0868637098088403]
大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
論文 参考訳(メタデータ) (2025-06-04T14:37:54Z) - Towards Resource-Efficient Compound AI Systems [4.709762596591902]
複合AIシステムは、モデル、レトリバー、外部ツールなどの複数の相互作用コンポーネントを統合する。
現在の実装は、アプリケーションロジックと実行の詳細の密結合によって、非効率なリソース利用に悩まされています。
本稿では、動的スケジューリングとリソース認識意思決定のための宣言型ワークフロープログラミングモデルと適応型ランタイムシステムを提案する。
論文 参考訳(メタデータ) (2025-01-28T02:15:34Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - AttNS: Attention-Inspired Numerical Solving For Limited Data Scenarios [51.94807626839365]
限定データによる微分方程式の解法として,注目型数値解法(AttNS)を提案する。
AttNSは、モデル一般化とロバスト性の向上におけるResidual Neural Networks(ResNet)のアテンションモジュールの効果にインスパイアされている。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Contingency-Aware Influence Maximization: A Reinforcement Learning
Approach [52.109536198330126]
インフルエンス(IM)問題は、インフルエンスの普及を最大化する、ソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。
本研究では、招待されたノードがシードであるかどうかが不確実なIM問題(contingency-aware IM)に焦点をあてる。
最初の成功にもかかわらず、より多くのコミュニティへのソリューションの推進における大きな実践上の障害は、欲張りのアルゴリズムの巨大な実行時である。
論文 参考訳(メタデータ) (2021-06-13T16:42:22Z) - ANDREAS: Artificial intelligence traiNing scheDuler foR accElerAted
resource clusterS [1.798617052102518]
パフォーマンスを最大化し、データセンターの運用コストを最小限に抑える高度なスケジューリングソリューションであるANDREASを提案します。
実験の結果,第一原理法では平均で30~62%のコスト削減が可能であった。
論文 参考訳(メタデータ) (2021-05-11T14:36:19Z) - Computation Resource Allocation Solution in Recommender Systems [19.456109814747048]
限られた計算資源と応答時間でビジネス目標を最大化する計算資源割当ソリューション(CRAS)を提案します。
本手法の有効性はtaobao.comの実データに基づく広範囲な実験により検証された。
論文 参考訳(メタデータ) (2021-03-03T08:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。