論文の概要: A robust methodology for long-term sustainability evaluation of Machine Learning models
- arxiv url: http://arxiv.org/abs/2511.08120v1
- Date: Wed, 12 Nov 2025 01:40:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.653263
- Title: A robust methodology for long-term sustainability evaluation of Machine Learning models
- Title(参考訳): 機械学習モデルの長期持続可能性評価のための頑健な方法論
- Authors: Jorge Paz-Ruza, João Gama, Amparo Alonso-Betanzos, Bertha Guijarro-Berdiñas,
- Abstract要約: 本稿では,MLモデルの長期持続可能性を評価するための包括的評価プロトコルを提案する。
以上の結果から, 長期持続可能性はモデルによって大きく異なり, 環境コストが高いと性能上のメリットが少ないことが示唆された。
- 参考スコア(独自算出の注目度): 5.069562264902573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sustainability and efficiency have become essential considerations in the development and deployment of Artificial Intelligence systems, yet existing regulatory and reporting practices lack standardized, model-agnostic evaluation protocols. Current assessments often measure only short-term experimental resource usage and disproportionately emphasize batch learning settings, failing to reflect real-world, long-term AI lifecycles. In this work, we propose a comprehensive evaluation protocol for assessing the long-term sustainability of ML models, applicable to both batch and streaming learning scenarios. Through experiments on diverse classification tasks using a range of model types, we demonstrate that traditional static train-test evaluations do not reliably capture sustainability under evolving data and repeated model updates. Our results show that long-term sustainability varies significantly across models, and in many cases, higher environmental cost yields little performance benefit.
- Abstract(参考訳): 持続可能性と効率性は、人工知能システムの開発と展開において重要な考慮事項となっているが、既存の規制および報告のプラクティスには、標準化されたモデルに依存しない評価プロトコルが欠如している。
現在のアセスメントは、短期的な実験的なリソース使用のみを測定し、バッチ学習の設定を不均等に強調し、現実の長期的なAIライフサイクルを反映しないことが多い。
本研究では,MLモデルの長期持続可能性を評価するための包括的評価プロトコルを提案する。
様々なモデルタイプを用いた多種多様な分類タスクの実験を通じて、従来の静的列車試験による評価は、進化するデータと繰り返しモデル更新の下で持続可能性を確実に把握できないことを示した。
以上の結果から, 長期持続可能性がモデルによって大きく異なることが示唆され, 環境コストが高いと性能上のメリットがほとんど得られない場合が多い。
関連論文リスト
- MACEval: A Multi-Agent Continual Evaluation Network for Large Models [52.629762680215315]
大規模モデルの動的評価のためのマルチエージェント連続評価ネットワークであるMACEvalを紹介する。
MACEvalは,(1)人間フリーで自動で,(2)エージェント間判定による退屈な結果処理を緩和し,(2)効率よく,経済的に,相当量のデータとオーバーヘッドを減らして,関連するベンチマークと同じような結果が得られること,(3)カスタマイズされた評価トポロジによる既存のベンチマークの柔軟性,拡張性,マイグレーション,統合化を実証する。
論文 参考訳(メタデータ) (2025-11-12T09:26:24Z) - Evaluating Time Series Models with Knowledge Discovery [4.897267974042842]
時系列データは、医療、地震学、製造業、エネルギーといった様々な重要な領域に存在する最もユビキタスなデータモダリティの1つである。
モデルの性能はRMSE、精度、F1スコアといった特定の評価指標によって評価されることが多い。
モデル評価にドメイン知識を効果的に活用することを目的とした知識発見に基づく評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:48:56Z) - Position: There are no Champions in Long-Term Time Series Forecasting [0.0]
我々は、より複雑なモデルを追求することから、ベンチマークプラクティスの強化へと焦点を移す必要があることに重点を置いています。
クレームをサポートするために、私たちはまず、14のデータセットに3500以上のネットワークをトレーニングすることで、最も人気のあるベンチマークで最高のパフォーマンスのモデルを広く、徹底し、再現可能な評価を行います。
論文 参考訳(メタデータ) (2025-02-19T19:08:37Z) - Recurrent Neural Goodness-of-Fit Test for Time Series [8.22915954499148]
時系列データは、金融や医療など、さまざまな分野において重要である。
従来の評価基準は、時間的依存関係と潜在的な特徴の高次元性のために不足している。
Recurrent Neural (RENAL) Goodness-of-Fit testは,生成時系列モデルを評価するための新しい,統計的に厳密なフレームワークである。
論文 参考訳(メタデータ) (2024-10-17T19:32:25Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Passive learning to address nonstationarity in virtual flow metering
applications [0.0]
本稿では,定常仮想フローメータの予測精度を維持するために,学習手法の適用方法について検討する。
周期的バッチ学習とオンライン学習という2つの受動的学習法を、様々なキャリブレーション周波数で応用し、仮想フローメーターを訓練する。
第1に、頻繁な到着測定が存在する場合、頻繁なモデル更新は、時間とともに優れた予測性能を保ち、第2に、間欠的かつ頻繁な到着測定が存在する場合、頻繁な更新は、性能の精度を高めるために不可欠である。
論文 参考訳(メタデータ) (2022-02-07T14:42:00Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Learning representations with end-to-end models for improved remaining
useful life prognostics [64.80885001058572]
残りの設備の実用寿命(RUL)は、現在の時刻と故障までの期間として定義される。
マルチ層パーセプトロンと長期メモリ層(LSTM)に基づくエンドツーエンドのディープラーニングモデルを提案し、RULを予測する。
提案するエンド・ツー・エンドのモデルがこのような優れた結果を達成し、他のディープラーニングや最先端の手法と比較する方法について論じる。
論文 参考訳(メタデータ) (2021-04-11T16:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。