論文の概要: Analyzing the Impact of Undersampling on the Benchmarking and
Configuration of Evolutionary Algorithms
- arxiv url: http://arxiv.org/abs/2204.09353v2
- Date: Fri, 22 Apr 2022 10:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 06:20:23.698942
- Title: Analyzing the Impact of Undersampling on the Benchmarking and
Configuration of Evolutionary Algorithms
- Title(参考訳): 進化的アルゴリズムのベンチマークと構成におけるアンダーサンプリングの影響分析
- Authors: Diederick Vermetten and Hao Wang and Manuel L\'opez-Iba\~nez and
Carola Doerr and Thomas B\"ack
- Abstract要約: 限られたデータに基づいて意思決定を行う場合、注意が必要であることを示す。
統計的レースを用いてラン数を動的に調整しても,20%以上の性能損失の例を示す。
- 参考スコア(独自算出の注目度): 3.967483941966979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The stochastic nature of iterative optimization heuristics leads to
inherently noisy performance measurements. Since these measurements are often
gathered once and then used repeatedly, the number of collected samples will
have a significant impact on the reliability of algorithm comparisons. We show
that care should be taken when making decisions based on limited data.
Particularly, we show that the number of runs used in many benchmarking
studies, e.g., the default value of 15 suggested by the COCO environment, can
be insufficient to reliably rank algorithms on well-known numerical
optimization benchmarks.
Additionally, methods for automated algorithm configuration are sensitive to
insufficient sample sizes. This may result in the configurator choosing a
`lucky' but poor-performing configuration despite exploring better ones. We
show that relying on mean performance values, as many configurators do, can
require a large number of runs to provide accurate comparisons between the
considered configurations. Common statistical tests can greatly improve the
situation in most cases but not always. We show examples of performance losses
of more than 20%, even when using statistical races to dynamically adjust the
number of runs, as done by irace. Our results underline the importance of
appropriately considering the statistical distribution of performance values.
- Abstract(参考訳): 反復最適化ヒューリスティックの確率的性質は、本質的にノイズの多い性能測定につながる。
これらの測定はしばしば一度収集され、繰り返し使用されるので、収集されたサンプルの数はアルゴリズム比較の信頼性に大きな影響を与える。
限られたデータに基づいて意思決定を行う場合には注意が必要である。
特に,coco環境が提案する15のデフォルト値など,多くのベンチマーク研究で使用されているラン数は,よく知られた数値最適化ベンチマークでアルゴリズムを確実にランク付けするには不十分であることを示す。
さらに、アルゴリズムの自動設定の方法はサンプルサイズ不足に敏感である。
これにより、コンフィグレータはより優れた設定を探索しながら、‘ラッキー’だがパフォーマンスの悪い設定を選択することができる。
多くのコンフィグレータが行なっているように、平均的なパフォーマンス値に依存すると、検討された構成間の正確な比較を提供するために、大量の実行が必要になる。
一般的な統計検査は、ほとんどの場合状況を大幅に改善するが、必ずしも改善しない。
iraceが行ったように,統計的レースを用いてラン数を動的に調整した場合でも,20%以上のパフォーマンス損失の例を示す。
本研究は,パフォーマンス値の統計的分布を適切に考慮することの重要性を示唆する。
関連論文リスト
- Scaling LLM Inference with Optimized Sample Compute Allocation [56.524278187351925]
我々は、異なる推論構成の最適な混合を見つけるアルゴリズムであるOSCAを提案する。
実験の結果,学習した混合アロケーションでは,最高の単一構成よりも精度がよいことがわかった。
OSCAはシングルターンタスク以外のエージェント処理にも有効であることが示されており、デフォルト設定よりも3倍少ない計算でSWE-Benchの精度が向上している。
論文 参考訳(メタデータ) (2024-10-29T19:17:55Z) - Gradient Descent Efficiency Index [0.0]
本研究では,各イテレーションの有効性を定量化するために,新しい効率指標Ekを導入する。
提案した測定基準は、誤差の相対的変化と繰り返し間の損失関数の安定性の両方を考慮に入れている。
Ekは、機械学習アプリケーションにおける最適化アルゴリズムの選択とチューニングにおいて、より詳細な決定を導く可能性がある。
論文 参考訳(メタデータ) (2024-10-25T10:22:22Z) - FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization
Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。
我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。
テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文 参考訳(メタデータ) (2023-06-28T13:00:17Z) - Defining Standard Strategies for Quantum Benchmarks [0.1759008116536278]
我々は、どのベンチマークも従うべき特徴のセットを定義し、ベンチマークと診断を区別する。
ベンチマーク最適化の問題点、それらの最適化がいつ適切か、どのように報告されるべきか、について論じる。
スケーラブルなミラー量子ボリュームベンチマークを導入する。
論文 参考訳(メタデータ) (2023-03-03T17:50:34Z) - Selection of the Most Probable Best [2.1095005405219815]
予測値ランキングと選択(R&S)問題では,すべてのk解のシミュレーション出力が,分布によって不確実性をモデル化可能な共通パラメータに依存する。
我々は、最も確率の高い最適解 (MPB) を、分布に関して最適である確率が最も大きい解と定義する。
最適化条件における未知の手段をその推定値に置き換えるアルゴリズムを考案し,シミュレーション予算が増加するにつれて,アルゴリズムのサンプリング比が条件を満たすことを証明した。
論文 参考訳(メタデータ) (2022-07-15T15:27:27Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Automated Configuration of Genetic Algorithms by Tuning for Anytime
Performance [4.33419118449588]
コンフィグレーションタスクに対して、いつでもパフォーマンス対策を使うことが望ましいことを示します。
予測実行時間のチューニングは、ターゲットアルゴリズムに割り当てられる予算に対してはるかに敏感である。
論文 参考訳(メタデータ) (2021-06-11T10:44:51Z) - On the Assessment of Benchmark Suites for Algorithm Comparison [7.501426386641256]
BBOBスイートのほとんどのベンチマーク関数は、高い難易度(最適化アルゴリズムと比較)と低い差別性を有することを示す。
我々は、ベンチマークスイートの設計を改善することを含む、ベンチマークにおけるIRTの潜在的な使用について論じる。
論文 参考訳(メタデータ) (2021-04-15T11:20:11Z) - A Framework for Sample Efficient Interval Estimation with Control
Variates [94.32811054797148]
確率変数の平均に対して信頼区間を推定する問題を考察する。
ある条件下では、既存の推定アルゴリズムと比較して効率が向上している。
論文 参考訳(メタデータ) (2020-06-18T05:42:30Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。