論文の概要: An Approach to Multiple Comparison Benchmark Evaluations that is Stable
Under Manipulation of the Comparate Set
- arxiv url: http://arxiv.org/abs/2305.11921v1
- Date: Fri, 19 May 2023 08:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 02:03:45.349946
- Title: An Approach to Multiple Comparison Benchmark Evaluations that is Stable
Under Manipulation of the Comparate Set
- Title(参考訳): コンパレート集合の操作下で安定な複数比較ベンチマーク評価へのアプローチ
- Authors: Ali Ismail-Fawaz, Angus Dempster, Chang Wei Tan, Matthieu Herrmann,
Lynn Miller, Daniel F. Schmidt, Stefano Berretti, Jonathan Weber, Maxime
Devanne, Germain Forestier, Geoffrey I. Webb
- Abstract要約: ベンチマーク比較の結果を示す新しい手法として,MCM(Multiple Comparison Matrix)を提案する。
MCMはペアワイズ比較を優先し、既存のアプローチで実験結果を操作する手段を阻害する。
MCMはPythonで実装されており、公開されている。
- 参考スコア(独自算出の注目度): 10.353747919337817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The measurement of progress using benchmarks evaluations is ubiquitous in
computer science and machine learning. However, common approaches to analyzing
and presenting the results of benchmark comparisons of multiple algorithms over
multiple datasets, such as the critical difference diagram introduced by
Dem\v{s}ar (2006), have important shortcomings and, we show, are open to both
inadvertent and intentional manipulation. To address these issues, we propose a
new approach to presenting the results of benchmark comparisons, the Multiple
Comparison Matrix (MCM), that prioritizes pairwise comparisons and precludes
the means of manipulating experimental results in existing approaches. MCM can
be used to show the results of an all-pairs comparison, or to show the results
of a comparison between one or more selected algorithms and the state of the
art. MCM is implemented in Python and is publicly available.
- Abstract(参考訳): ベンチマーク評価を用いた進捗度の測定は、コンピュータ科学や機械学習においてユビキタスである。
しかし、Dem\v{s}ar (2006) が導入した臨界差図など、複数のデータセットに対するベンチマーク比較の結果を分析・提示する一般的なアプローチには、重大な欠点があり、不注意な操作と意図的な操作の両方が可能である。
これらの問題に対処するために,本研究では,ベンチマーク比較の結果を示すための新しい手法であるmultiple comparison matrix (mcm)を提案する。
MCMは、全ペア比較の結果を示すために、または1つ以上の選択されたアルゴリズムと技術状態の比較の結果を示すために使用することができる。
MCMはPythonで実装されており、公開されている。
関連論文リスト
- POGEMA: A Benchmark Platform for Cooperative Multi-Agent Navigation [76.67608003501479]
主評価指標の基礎に基づいて計算された領域関連メトリクスの範囲を定義する評価プロトコルを導入・指定する。
このような比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含むものである。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Performance Evaluation and Comparison of a New Regression Algorithm [4.125187280299247]
新たに提案した回帰アルゴリズムの性能を,従来の4つの機械学習アルゴリズムと比較した。
GitHubリポジトリにソースコードを提供したので、読者は結果の複製を自由にできます。
論文 参考訳(メタデータ) (2023-06-15T13:01:16Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Learning by Sorting: Self-supervised Learning with Group Ordering
Constraints [75.89238437237445]
本稿では,対照学習目標である群順序制約(GroCo)の新たなバリエーションを提案する。
正の対と負の対の距離をソートし、正の対が負の対よりも多くの距離を持つかに基づいてそれぞれの損失を計算するという考え方を利用しており、したがって正しく順序付けされていない。
各種自己教師付き学習ベンチマークの定式化について検討し、バニラのコントラスト学習と比較して結果が向上するだけでなく、k-NNの性能において、線形探索や性能向上において同等の手法と競合する性能を示すことを示す。
論文 参考訳(メタデータ) (2023-01-05T11:17:55Z) - Prasatul Matrix: A Direct Comparison Approach for Analyzing Evolutionary
Optimization Algorithms [2.1320960069210475]
進化最適化アルゴリズムの性能を解析するために,直接比較手法を提案する。
アルゴリズムの性能を評価するために、プラサトゥール行列に基づいて5つの異なる性能尺度を設計する。
論文 参考訳(メタデータ) (2022-12-01T17:21:44Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Beyond Supervised vs. Unsupervised: Representative Benchmarking and
Analysis of Image Representation Learning [37.81297650369799]
イメージ表現を学習するための教師なしの手法は、標準ベンチマークで印象的な結果に達した。
実装が大幅に異なる多くのメソッドは、一般的なベンチマークでほぼ同じように見える結果をもたらす。
本稿では, 線形評価, 近隣分類, クラスタリングなど, 性能ベースのベンチマークを用いた手法の比較を行った。
論文 参考訳(メタデータ) (2022-06-16T17:51:19Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Active Sampling for Pairwise Comparisons via Approximate Message Passing
and Information Gain Maximization [5.771869590520189]
本稿では、近似メッセージパッシングと期待情報ゲインに基づくアクティブサンプリングアルゴリズムASAPを提案する。
既存の手法と比較して,ASAPは推定スコアの精度が最も高いことを示す。
論文 参考訳(メタデータ) (2020-04-12T20:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。