論文の概要: A Statistical Analysis for Per-Instance Evaluation of Stochastic Optimizers: How Many Repeats Are Enough?
- arxiv url: http://arxiv.org/abs/2503.16589v1
- Date: Thu, 20 Mar 2025 17:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:11.885305
- Title: A Statistical Analysis for Per-Instance Evaluation of Stochastic Optimizers: How Many Repeats Are Enough?
- Title(参考訳): 確率最適化器のインスタンスごとの評価に関する統計的分析:何回繰り返すか?
- Authors: Moslem Noori, Elisabetta Valiante, Thomas Van Vaerenbergh, Masoud Mohseni, Ignacio Rozada,
- Abstract要約: 本稿では,共通指標の統計的分析を行い,実験設計のガイドラインを策定する。
メトリクスの所定の精度を達成するために、リピート数に対する低いバウンダリを導出します。
そこで本稿では,評価基準の精度を確保するために必要となるリピート数を適応的に調整するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.8575004906002217
- License:
- Abstract: A key trait of stochastic optimizers is that multiple runs of the same optimizer in attempting to solve the same problem can produce different results. As a result, their performance is evaluated over several repeats, or runs, on the problem. However, the accuracy of the estimated performance metrics depends on the number of runs and should be studied using statistical tools. We present a statistical analysis of the common metrics, and develop guidelines for experiment design to measure the optimizer's performance using these metrics to a high level of confidence and accuracy. To this end, we first discuss the confidence interval of the metrics and how they are related to the number of runs of an experiment. We then derive a lower bound on the number of repeats in order to guarantee achieving a given accuracy in the metrics. Using this bound, we propose an algorithm to adaptively adjust the number of repeats needed to ensure the accuracy of the evaluated metric. Our simulation results demonstrate the utility of our analysis and how it allows us to conduct reliable benchmarking as well as hyperparameter tuning and prevent us from drawing premature conclusions regarding the performance of stochastic optimizers.
- Abstract(参考訳): 確率的オプティマイザの重要な特徴は、同じ問題を解く際に同じオプティマイザを複数回実行することで、異なる結果が得られることである。
その結果、それらの性能は問題に対して数回の繰り返し、または実行で評価される。
しかし、推定性能指標の精度はラン数に依存するため、統計ツールを用いて検討すべきである。
本報告では,これらの指標の統計的分析を行い,これらの指標を用いた最適化器の性能を高い信頼性と精度で測定するための実験設計ガイドラインを策定する。
この目的のために、まずメトリクスの信頼区間と実験の実行回数との関連について論じる。
次に、メトリクスの所定の精度を達成するために、リピート数に対する低いバウンダリを導出します。
このバウンダリを用いて、評価基準の精度を確保するために必要となるリピート数を適応的に調整するアルゴリズムを提案する。
シミュレーションの結果,解析の有用性と,信頼性の高いベンチマークとハイパーパラメータチューニングを実現し,確率オプティマイザの性能に関する未熟な結論を導出するのを防ぐ方法が示された。
関連論文リスト
- Quantifying Uncertainty and Variability in Machine Learning: Confidence Intervals for Quantiles in Performance Metric Distributions [0.17265013728931003]
マシンラーニングモデルは、信頼性と堅牢性が重要であるアプリケーションで広く使用されている。
モデル評価は、しばしば、モデルパフォーマンスの固有の変数をキャプチャできないパフォーマンスメトリクスの単一ポイント推定に依存します。
この貢献は、そのような分布を分析するために量子と信頼区間を使うことを探求し、モデルの性能とその不確実性についてより完全な理解を提供する。
論文 参考訳(メタデータ) (2025-01-28T13:21:34Z) - Semiparametric conformal prediction [79.6147286161434]
ベクトル値の非整合性スコアの結合相関構造を考慮した共形予測セットを構築する。
スコアの累積分布関数(CDF)を柔軟に推定する。
提案手法は,現実の回帰問題に対して,所望のカバレッジと競争効率をもたらす。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Online Estimation with Rolling Validation: Adaptive Nonparametric Estimation with Streaming Data [13.069717985067937]
本稿では,多くの典型的な勾配勾配勾配推定器において最小限の費用がかかる,オンライン版Left-one-outクロスバリデーションである重み付き転がり検証手法を提案する。
我々の分析は単純であり、主にいくつかの一般的な統計的仮定に依存している。
論文 参考訳(メタデータ) (2023-10-18T17:52:57Z) - Multi-Fidelity Covariance Estimation in the Log-Euclidean Geometry [0.0]
対称正定値多様体の対数ユークリッド幾何学を利用する共分散行列の多値推定器を導入する。
固定予算が与えられた推定器の平均二乗誤差を最小化する最適サンプル割り当て方式を開発した。
物理アプリケーションからのデータによるアプローチの評価は、ベンチマークと比較すると、より正確なメトリック学習と1桁以上のスピードアップを示している。
論文 参考訳(メタデータ) (2023-01-31T16:33:46Z) - Analyzing the Impact of Undersampling on the Benchmarking and
Configuration of Evolutionary Algorithms [3.967483941966979]
限られたデータに基づいて意思決定を行う場合、注意が必要であることを示す。
統計的レースを用いてラン数を動的に調整しても,20%以上の性能損失の例を示す。
論文 参考訳(メタデータ) (2022-04-20T09:53:59Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - A Framework for Sample Efficient Interval Estimation with Control
Variates [94.32811054797148]
確率変数の平均に対して信頼区間を推定する問題を考察する。
ある条件下では、既存の推定アルゴリズムと比較して効率が向上している。
論文 参考訳(メタデータ) (2020-06-18T05:42:30Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。