Fugu-MT 論文翻訳(概要): DeCEAT: Decoding Carbon Emissions for AI-driven Software Testing

論文の概要: DeCEAT: Decoding Carbon Emissions for AI-driven Software Testing

arxiv url: http://arxiv.org/abs/2602.18012v1
Date: Fri, 20 Feb 2026 05:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.243178
Title: DeCEAT: Decoding Carbon Emissions for AI-driven Software Testing
Title（参考訳）: DeCEAT: AI駆動のソフトウェアテストのための二酸化炭素排出量のデコード
Authors: Pragati Kumari, Novarun Deb,
Abstract要約: 本研究は,小言語モデル(SLM)の環境・性能トレードオフを体系的に評価するDeCEATフレームワークを紹介する。以上の結果から,SLMは炭素制約下では高い安定性や精度を維持しつつ,それぞれ異なる持続可能性強度を示すことが明らかとなった。この作業は、自動化されたSLMベースのテスト生成に特化して、サステナビリティ評価フレームワークを提供する。
参考スコア（独自算出の注目度）: 0.42970700836450487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The increasing use of language models in automated software testing raises concerns about their environmental impact, yet existing sustainability analyses focus almost exclusively on large language models. As a result, the energy and carbon characteristics of small language models (SLMs) during test generation remain largely unexplored. To address this gap, this work introduces the DeCEAT framework, which systematically evaluates the environmental and performance trade-offs of SLMs using the HumanEval benchmark and adaptive prompt variants (based on the Anthropic template). The framework quantifies emission and time-aware behavior under controlled conditions, with CodeCarbon measuring energy consumption and carbon emissions, and unit test coverage assessing the quality of generated tests. Our results show that different SLMs exhibit distinct sustainability strengths: some prioritize lower energy use and faster execution, while others maintain higher stability or accuracy under carbon constraints. These findings demonstrate that sustainability in the generation of SLM-driven tests is multidimensional and strongly shaped by prompt design. This work provides a focused sustainability evaluation framework specifically tailored to automated SLM-based test generation, clarifying how prompt structure and model choice jointly influence environmental and performance outcomes.
Abstract（参考訳）: 自動ソフトウェアテストにおける言語モデルの利用の増加は、その環境への影響に対する懸念を喚起するが、既存のサステナビリティ分析は、主に大きな言語モデルに焦点を当てている。その結果、テスト生成時の小言語モデル(SLM)のエネルギーと炭素特性は未解明のままである。このギャップに対処するため、この研究はDeCEATフレームワークを導入し、HumanEvalベンチマークとアダプティブプロンプト変種(HumanEvalベンチマークに基づく)を用いて、SLMの環境と性能のトレードオフを体系的に評価した。このフレームワークは、制御された条件下での排出と時間認識の挙動を定量化し、CodeCarbonはエネルギー消費と二酸化炭素排出量を測定し、ユニットテストカバレッジは生成されたテストの品質を評価する。以上の結果から,SLMは炭素制約下で高い安定性や精度を維持しつつ,低エネルギー化と高速実行を優先するものもある。これらの結果から,SLM駆動試験の持続性は多次元的であり,急激な設計によって強く形成されていることが示唆された。本研究は,SLMによる自動テスト生成に適したサステナビリティ評価フレームワークを提供する。

関連論文リスト

AI-CARE: Carbon-Aware Reporting Evaluation Metric for AI Models [2.7946918847372277]
本稿では,AI-CARE,エネルギー消費評価ツール,および機械学習モデルの炭素排出量について述べる。理論的解析と実証的検証を通じて、炭素認識ベンチマークがモデルの相対的なランキングを変えることを実証する。本提案は,研究コミュニティを透明で多目的な評価に転換し,MLの進歩をグローバルなサステナビリティ目標に合わせることを目的としている。
論文参考訳（メタデータ） (2026-02-17T21:52:48Z)
AgentNoiseBench: Benchmarking Robustness of Tool-Using LLM Agents Under Noisy Condition [72.24180896265192]
本稿では,騒音環境下でのエージェントモデルのロバスト性を評価するためのフレームワークであるAgentNoiseBenchを紹介する。まず、実世界のシナリオにおけるバイアスと不確実性の詳細な分析を行う。次に,環境騒音をユーザノイズとツールノイズの2つの主要なタイプに分類する。この分析に基づいて,既存のエージェント中心ベンチマークに制御可能なノイズを注入する自動パイプラインを開発した。
論文参考訳（メタデータ） (2026-02-11T20:33:10Z)
Emissions and Performance Trade-off Between Small and Large Language Models [1.0863226323853896]
本研究では,事前定義されたタスクの持続可能な代替手段として,微調整小言語モデル(SLM)を用いる可能性について検討する。その結果,6つのタスクのうち4つのタスクにおいて,SLMは推定時の二酸化炭素排出量の大幅な削減に匹敵する性能を維持した。
論文参考訳（メタデータ） (2025-12-21T07:00:22Z)
Breaking the ICE: Exploring promises and challenges of benchmarks for Inference Carbon & Energy estimation for LLMs [8.377809633825196]
本稿では, 現状のアプローチの課題について論じるとともに, 炭素排出量を推定するフレームワークであるR-ICEについて述べる。我々の有望な検証結果は、ベンチマークベースのモデリングが推定放射推定に大きな可能性を秘めていることを示唆している。
論文参考訳（メタデータ） (2025-06-10T12:23:02Z)
A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文参考訳（メタデータ） (2025-06-03T14:23:06Z)
Unveiling Environmental Impacts of Large Language Model Serving: A Functional Unit View [2.5832043241251337]
FUELは、大規模言語モデル(LLM)の環境影響を評価するためのフレームワークであるモデルサイズ、量子化戦略、ハードウェア選択を最適化することで、二酸化炭素排出量を減らすための重要な洞察とトレードオフを明らかにします。
論文参考訳（メタデータ） (2025-02-16T20:20:18Z)
CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs [0.0]
本稿では,Small Language Models(SLM)とVision Language Models(VLM)の性能解析を行う。モデル性能と二酸化炭素排出量のトレードオフを定量化するために,CEGI(Carbon Efficient Gain Index)と呼ばれる新しい指標を導入する。以上の結果から,大規模モデルによる精度の限界向上は,二酸化炭素排出量の大幅な増加を正当化するものではないことが示唆された。
論文参考訳（メタデータ） (2024-12-03T17:32:47Z)
R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-09-21T18:32:44Z)
Assessing Generative Language Models in Classification Tasks: Performance and Self-Evaluation Capabilities in the Environmental and Climate Change Domain [0.0]
本稿では,2つの大規模言語モデル (LLMs) , GPT3.5 と Llama2 と 1つの小言語モデル (SLM) Gemma を,気候変動 (CC) と環境領域の3つの異なる分類課題で比較した。
論文参考訳（メタデータ） (2024-08-30T15:52:41Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation [82.85015548989223]
Pentathlonは、モデル効率の総合的で現実的な評価のためのベンチマークである。 Pentathlonは、モデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
論文参考訳（メタデータ） (2023-07-19T01:05:33Z)
A Comparative Study of Machine Learning Algorithms for Anomaly Detection in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。 Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文参考訳（メタデータ） (2023-07-01T15:18:00Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。