Fugu-MT 論文翻訳(概要): SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints

論文の概要: SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints

arxiv url: http://arxiv.org/abs/2509.09853v1
Date: Thu, 11 Sep 2025 21:04:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-15 16:03:07.922797
Title: SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints
Title（参考訳）: SWE-Effi: リソース制約下でのソフトウェアAIエージェントシステムの有効性の再評価
Authors: Zhiyu Fan, Kirill Vasilevski, Dayi Lin, Boyuan Chen, Yihao Chen, Zhiqing Zhong, Jie M. Zhang, Pinjia He, Ahmed E. Hassan,
Abstract要約: ソフトウェアエンジニアリングのリーダーボードのための既存のAIは、ソリューションの正確性にのみフォーカスする。 SWE-Effiは、総合的な有効性スコアの観点からAIシステムを再評価する、新しいメトリクスのセットである。
参考スコア（独自算出の注目度）: 24.279120215338054
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The advancement of large language models (LLMs) and code agents has demonstrated significant potential to assist software engineering (SWE) tasks, such as autonomous issue resolution and feature addition. Existing AI for software engineering leaderboards (e.g., SWE-bench) focus solely on solution accuracy, ignoring the crucial factor of effectiveness in a resource-constrained world. This is a universal problem that also exists beyond software engineering tasks: any AI system should be more than correct - it must also be cost-effective. To address this gap, we introduce SWE-Effi, a set of new metrics to re-evaluate AI systems in terms of holistic effectiveness scores. We define effectiveness as the balance between the accuracy of outcome (e.g., issue resolve rate) and the resources consumed (e.g., token and time). In this paper, we specifically focus on the software engineering scenario by re-ranking popular AI systems for issue resolution on a subset of the SWE-bench benchmark using our new multi-dimensional metrics. We found that AI system's effectiveness depends not just on the scaffold itself, but on how well it integrates with the base model, which is key to achieving strong performance in a resource-efficient manner. We also identified systematic challenges such as the "token snowball" effect and, more significantly, a pattern of "expensive failures". In these cases, agents consume excessive resources while stuck on unsolvable tasks - an issue that not only limits practical deployment but also drives up the cost of failed rollouts during RL training. Lastly, we observed a clear trade-off between effectiveness under the token budget and effectiveness under the time budget, which plays a crucial role in managing project budgets and enabling scalable reinforcement learning, where fast responses are essential.
Abstract（参考訳）: 大規模言語モデル(LLM)とコードエージェントの進歩は、自律的な課題解決や機能追加といったソフトウェア工学(SWE)タスクを支援する大きな可能性を示している。既存のソフトウェアエンジニアリングリーダボード(例:SWE-bench)用のAIは、リソース制約のある世界での有効性の重要な要素を無視して、ソリューションの正確性のみに重点を置いています。これは、ソフトウェアエンジニアリングのタスクを超えて存在する普遍的な問題である。このギャップに対処するために、総合的な評価スコアの観点からAIシステムを再評価する新しい指標セットであるSWE-Effiを紹介する。有効性を、結果の正確性(例えば、課題解決率)と消費されるリソース(例えば、トークンと時間)のバランスとして定義する。本稿では,SWE-benchベンチマークのサブセットに,一般的なAIシステムを再評価することで,ソフトウェア工学のシナリオに特に着目する。私たちは、AIシステムの有効性は足場自体に依らず、ベースモデルとどの程度うまく統合されているかにかかっていることに気付きました。また,「トケン雪玉」効果や,さらに顕著な「エクスペンシブ・失敗」のパターンなど,体系的な課題を明らかにした。このような場合、エージェントは解決不可能なタスクに固執しながら過剰なリソースを消費します。最後に、トークン予算の下での有効性と、プロジェクト予算の管理において重要な役割を担い、迅速な応答が不可欠であるスケーラブルな強化学習を可能にする時間予算下での有効性の明確なトレードオフを観察しました。

関連論文リスト

WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文参考訳（メタデータ） (2025-10-28T17:51:42Z)
Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-10-07T17:49:24Z)
Machine Learning Pipeline for Software Engineering: A Systematic Literature Review [0.0]
この系統的な文献レビューは、ソフトウェア工学(SE)用に設計された最先端の機械学習パイプラインを検証している。この結果から,データバランシングのためのSMOTEなどの堅牢な前処理がモデルの信頼性を向上させることが示唆された。ランダムフォレストやグラディエントブースティングのようなアンサンブルメソッドはタスク間でパフォーマンスを支配します。 Best Arithmetic Mean (BAM)のような新しいメトリクスはニッチなアプリケーションに現れている。
論文参考訳（メタデータ） (2025-07-31T15:37:30Z)
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning [95.28059121743831]
RLVR(Reinforcement Learning with Verifiable Rewards)は、複雑な推論タスクにおいて、大規模言語モデル(LLM)のトレーニングに有効であることが証明されている。本稿では、モデル欠陥を体系的に識別し、それらを問題解決に活用する自己認識弱さ駆動型問題合成フレームワーク(SwS)を提案する。 SwSはモデルを自己識別し、RLの弱点に対処することで堅牢な一般化を可能にし、7Bモデルと32Bモデルで平均パフォーマンスが10.0%と7.7%向上した。
論文参考訳（メタデータ） (2025-06-10T17:02:00Z)
The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective [3.0868637098088403]
大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
論文参考訳（メタデータ） (2025-06-04T14:37:54Z)
Towards Resource-Efficient Compound AI Systems [4.709762596591902]
複合AIシステムは、モデル、レトリバー、外部ツールなどの複数の相互作用コンポーネントを統合する。現在の実装は、アプリケーションロジックと実行の詳細の密結合によって、非効率なリソース利用に悩まされています。本稿では、動的スケジューリングとリソース認識意思決定のための宣言型ワークフロープログラミングモデルと適応型ランタイムシステムを提案する。
論文参考訳（メタデータ） (2025-01-28T02:15:34Z)
Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文参考訳（メタデータ） (2024-12-21T10:18:55Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
AttNS: Attention-Inspired Numerical Solving For Limited Data Scenarios [51.94807626839365]
限定データによる微分方程式の解法として,注目型数値解法(AttNS)を提案する。 AttNSは、モデル一般化とロバスト性の向上におけるResidual Neural Networks(ResNet)のアテンションモジュールの効果にインスパイアされている。
論文参考訳（メタデータ） (2023-02-05T01:39:21Z)
Contingency-Aware Influence Maximization: A Reinforcement Learning Approach [52.109536198330126]
インフルエンス(IM)問題は、インフルエンスの普及を最大化する、ソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。本研究では、招待されたノードがシードであるかどうかが不確実なIM問題(contingency-aware IM)に焦点をあてる。最初の成功にもかかわらず、より多くのコミュニティへのソリューションの推進における大きな実践上の障害は、欲張りのアルゴリズムの巨大な実行時である。
論文参考訳（メタデータ） (2021-06-13T16:42:22Z)
ANDREAS: Artificial intelligence traiNing scheDuler foR accElerAted resource clusterS [1.798617052102518]
パフォーマンスを最大化し、データセンターの運用コストを最小限に抑える高度なスケジューリングソリューションであるANDREASを提案します。実験の結果,第一原理法では平均で30～62%のコスト削減が可能であった。
論文参考訳（メタデータ） (2021-05-11T14:36:19Z)
Computation Resource Allocation Solution in Recommender Systems [19.456109814747048]
限られた計算資源と応答時間でビジネス目標を最大化する計算資源割当ソリューション(CRAS)を提案します。本手法の有効性はtaobao.comの実データに基づく広範囲な実験により検証された。
論文参考訳（メタデータ） (2021-03-03T08:41:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。