論文の概要: SWEnergy: An Empirical Study on Energy Efficiency in Agentic Issue Resolution Frameworks with SLMs
- arxiv url: http://arxiv.org/abs/2512.09543v2
- Date: Thu, 11 Dec 2025 11:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.291601
- Title: SWEnergy: An Empirical Study on Energy Efficiency in Agentic Issue Resolution Frameworks with SLMs
- Title(参考訳): SWEnergy:SLMを用いたエージェント問題解決フレームワークにおけるエネルギー効率に関する実証的研究
- Authors: Arihant Tripathy, Ch Pavan Harshit, Karthik Vaidhyanathan,
- Abstract要約: ソフトウェアエンジニアリングにおけるLLMベースの自律エージェントは、大規模なプロプライエタリなモデルに依存しており、ローカルデプロイメントを制限している。
本研究では,SLMの使用に故意に拘束された4つの主要なエージェント問題解決フレームワークの性能,エネルギー効率,資源消費量について検討する。
最もエネルギー集約的なフレームワークであるAutoCodeRover(Gemma)は、最もエネルギー集約的なOpenHands(Gemma)よりも平均して9.4倍エネルギーを消費している。
タスク解決率はほぼゼロであり、現在のフレームワークは、SLMと組み合わせると、非生産的推論ループでかなりのエネルギーを消費することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context. LLM-based autonomous agents in software engineering rely on large, proprietary models, limiting local deployment. This has spurred interest in Small Language Models (SLMs), but their practical effectiveness and efficiency within complex agentic frameworks for automated issue resolution remain poorly understood. Goal. We investigate the performance, energy efficiency, and resource consumption of four leading agentic issue resolution frameworks when deliberately constrained to using SLMs. We aim to assess the viability of these systems for this task in resource-limited settings and characterize the resulting trade-offs. Method. We conduct a controlled evaluation of four leading agentic frameworks (SWE-Agent, OpenHands, Mini SWE Agent, AutoCodeRover) using two SLMs (Gemma-3 4B, Qwen-3 1.7B) on the SWE-bench Verified Mini benchmark. On fixed hardware, we measure energy, duration, token usage, and memory over 150 runs per configuration. Results. We find that framework architecture is the primary driver of energy consumption. The most energy-intensive framework, AutoCodeRover (Gemma), consumed 9.4x more energy on average than the least energy-intensive, OpenHands (Gemma). However, this energy is largely wasted. Task resolution rates were near-zero, demonstrating that current frameworks, when paired with SLMs, consume significant energy on unproductive reasoning loops. The SLM's limited reasoning was the bottleneck for success, but the framework's design was the bottleneck for efficiency. Conclusions. Current agentic frameworks, designed for powerful LLMs, fail to operate efficiently with SLMs. We find that framework architecture is the primary driver of energy consumption, but this energy is largely wasted due to the SLMs' limited reasoning. Viable low-energy solutions require shifting from passive orchestration to architectures that actively manage SLM weaknesses.
- Abstract(参考訳): コンテキスト。
ソフトウェアエンジニアリングにおけるLLMベースの自律エージェントは、大規模なプロプライエタリなモデルに依存しており、ローカルデプロイメントを制限している。
これは、Small Language Models (SLM) への関心を喚起しているが、自動化された課題解決のための複雑なエージェントフレームワークにおけるその実用的効果と効率性は、まだよく分かっていない。
ゴール。
本研究では,SLMの使用に故意に拘束された4つの主要なエージェント問題解決フレームワークの性能,エネルギー効率,資源消費量について検討する。
本研究の目的は、リソース制限された設定でこれらのシステムの実現可能性を評価し、結果として生じるトレードオフを特徴付けることである。
方法。
SWE-bench Verified Miniベンチマークの2つのSLM(Gemma-3 4B, Qwen-3 1.7B)を用いて,4つの主要なエージェントフレームワーク(SWE-Agent, OpenHands, Mini SWE Agent, AutoCodeRover)の制御評価を行う。
固定ハードウェア上では、構成あたりのエネルギー、持続時間、トークン使用量、メモリ使用量を測定します。
結果。
フレームワークアーキテクチャがエネルギー消費の主要な要因であることに気付きました。
最もエネルギー集約的なフレームワークであるAutoCodeRover(Gemma)は、最もエネルギー集約的なOpenHands(Gemma)よりも平均して9.4倍のエネルギーを消費した。
しかし、このエネルギーはほとんど無駄である。
タスク解決率はほぼゼロであり、現在のフレームワークは、SLMと組み合わせると、非生産的推論ループでかなりのエネルギーを消費することを示した。
SLMの限られた推論は成功のボトルネックであったが、フレームワークの設計は効率のボトルネックであった。
結論。
現在のエージェントフレームワークは強力なLLM用に設計されており、SLMで効率的に動作できない。
フレームワークアーキテクチャがエネルギー消費の主要な要因であることがわかったが、SLMの限られた理由により、このエネルギーは大部分が無駄になっている。
実行可能な低エネルギーソリューションでは、受動的オーケストレーションから、SLMの弱点を積極的に管理するアーキテクチャに移行する必要があります。
関連論文リスト
- Energy-Driven Steering: Reducing False Refusals in Large Language Models [80.09252175869858]
エネルギー駆動ステアリング(EDS、Energy-Driven Steering)は、動的で推論時間の介入によってこの問題を解決するために設計された、新しい、微調整自由なフレームワークである。
我々は、望ましくない(偽の拒絶または脱獄)状態に高エネルギーを割り当て、望ましい(好ましくない反応または安全な拒絶)状態に低エネルギーを割り当てるために、軽量な外部エネルギーベースモデル(EBM)を訓練した。
エネルギー関数の勾配を利用してLLMの隠れた状態を低エネルギー領域に動的に操る。
論文 参考訳(メタデータ) (2025-10-09T06:01:41Z) - Think Then Embed: Generative Context Improves Multimodal Embedding [51.76690812535934]
本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
論文 参考訳(メタデータ) (2025-10-06T16:53:56Z) - Small Language Models for Agentic Systems: A Survey of Architectures, Capabilities, and Deployment Trade offs [0.10742675209112619]
小型言語モデル(SLM: 1-12B パラム、時には 20B まで)は十分であり、エージェント処理に優れていることが多い。
オープンおよびプロプライエタリなSLMにまたがって最近のエビデンスを合成し、近代的な評価に結び付ける。
本研究では,不確実性を考慮したルーティングと検証器カスケードを用いたSLMフォールバックシステムを定式化し,実生産目標を反映したエンジニアリングメトリクスを提案する。
論文 参考訳(メタデータ) (2025-10-04T15:48:04Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency [6.306413686006502]
我々はOllamaライブラリから28の量子化大言語モデル(LLM)を包括的に分析する。
我々は、複数の量子化レベルおよびタスクタイプにわたるエネルギー効率、推論性能、出力精度を評価する。
その結果,異なる量子化設定におけるエネルギー効率,推定速度,精度のトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-04-04T11:29:30Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - SLO-aware GPU Frequency Scaling for Energy Efficient LLM Inference Serving [6.010159688581912]
本稿では,Service-Level Objectives に適合しながら,消費電力を削減するフレームワーク textitthrottLL'eM を提案する。
textitthrottLL'eMは将来のKVキャッシュ使用量とバッチサイズを予測するメカニズムを備えている。
提案したMLモデルは0.97以上のR2$スコアを達成し,平均1秒あたり1イテレーション未満のパフォーマンスを予測した。
論文 参考訳(メタデータ) (2024-08-05T09:07:06Z) - DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency [7.073435885680335]
そこで我々はDynamoLLMを提案する。DynamoLLMは、生成型大規模言語モデルのための最初のエネルギー管理フレームワークである。
サービスレベルでは、DynamoLLMは53%のエネルギーと38%の運転二酸化炭素を節約し、顧客へのコストを61%削減する。
論文 参考訳(メタデータ) (2024-08-01T17:40:45Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Hybrid Heterogeneous Clusters Can Lower the Energy Consumption of LLM Inference Workloads [0.2389598109913753]
大規模言語モデル(LLM)の訓練と使用には大量のエネルギーが必要である。
本稿では, LLM を運用するデータセンターにおけるエネルギー消費削減の課題に対処する。
本稿では,コストベースのスケジューリングフレームワークを用いて,ハードウェアアクセラレータ間でタスクを動的に割り当てるハイブリッドデータセンターモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T11:24:08Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。