論文の概要: Statistical Multicriteria Benchmarking via the GSD-Front
- arxiv url: http://arxiv.org/abs/2406.03924v1
- Date: Thu, 6 Jun 2024 10:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:19:49.575411
- Title: Statistical Multicriteria Benchmarking via the GSD-Front
- Title(参考訳): GSD-Frontによる統計的多基準ベンチマーク
- Authors: Christoph Jansen, Georg Schollmeyer, Julian Rodemann, Hannah Blocher, Thomas Augustin,
- Abstract要約: 一般化支配順序付け(GSD)を用いた分類器の比較を提案する。
我々は、(潜在的に新しい)分類器が、最先端の分類器のセットのGSDフロントにあるかどうかを統計的に検証する。
ベンチマークスイートであるPMLBとプラットフォームであるOpenMLについて説明する。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Given the vast number of classifiers that have been (and continue to be) proposed, reliable methods for comparing them are becoming increasingly important. The desire for reliability is broken down into three main aspects: (1) Comparisons should allow for different quality metrics simultaneously. (2) Comparisons should take into account the statistical uncertainty induced by the choice of benchmark suite. (3) The robustness of the comparisons under small deviations in the underlying assumptions should be verifiable. To address (1), we propose to compare classifiers using a generalized stochastic dominance ordering (GSD) and present the GSD-front as an information-efficient alternative to the classical Pareto-front. For (2), we propose a consistent statistical estimator for the GSD-front and construct a statistical test for whether a (potentially new) classifier lies in the GSD-front of a set of state-of-the-art classifiers. For (3), we relax our proposed test using techniques from robust statistics and imprecise probabilities. We illustrate our concepts on the benchmark suite PMLB and on the platform OpenML.
- Abstract(参考訳): 提案された(そして今後も続く)膨大な数の分類器を考えると、それらを比較するための信頼性の高い方法がますます重要になっている。
信頼性への欲求は3つの主な側面に分けられる。
2)ベンチマークスイートの選択によって引き起こされる統計的不確実性を考慮する必要がある。
(3) 基礎となる仮定における小さな偏差の下での比較の堅牢性は検証されるべきである。
1)に対処するために、一般化確率支配順序付け(GSD)を用いて分類器を比較し、従来のパレートフロントの代替としてGSDフロントを提示する。
2) では,GSD-front に対する一貫した統計的推定器を提案し,(潜在的に新しい) 分類器が一組の最先端分類器の GSD-front に含まれるか否かを統計的に検証する。
(3)では、頑健な統計と不正確な確率の手法を用いて、提案した試験を緩和する。
ベンチマークスイートであるPMLBとプラットフォームであるOpenMLについて説明する。
関連論文リスト
- A robust three-way classifier with shadowed granular-balls based on justifiable granularity [53.39844791923145]
我々は、不確実なデータのために、影付きGBの頑健な3方向分類器を構築した。
本モデルでは,不確実なデータ管理を実証し,分類リスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-07-03T08:54:45Z) - Multivariate Stochastic Dominance via Optimal Transport and Applications to Models Benchmarking [21.23500484100963]
最適輸送の枠組みの下で, ほぼ優位性をスムーズなコストで評価する統計モデルを導入する。
また、Sinkhornアルゴリズムを用いた仮説テストフレームワークと効率的な実装を提案する。
複数のメトリクスで評価された大規模言語モデルの比較とベンチマークを行う方法について紹介する。
論文 参考訳(メタデータ) (2024-06-10T16:14:50Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Statistical Comparisons of Classifiers by Generalized Stochastic
Dominance [0.0]
いくつかの基準に関して、分類器を複数のデータセットで比較する方法については、まだ合意が得られていない。
本稿では, 意思決定理論の最近の展開を取り入れた, 鮮明な議論に新たな視点を加える。
我々のフレームワークは、支配という一般化された概念によって分類器をランク付けし、それは煩雑なものを強力に回避し、しばしば自己矛盾的であり、集約に依存していることを示している。
論文 参考訳(メタデータ) (2022-09-05T09:28:15Z) - On Efficient and Robust Metrics for RANSAC Hypotheses and 3D Rigid
Registration [51.64236850960365]
本稿では, 高精度な3次元剛性登録を実現するために, RANSAC仮説の効率的かつ堅牢な評価指標の開発に焦点をあてる。
Inlierとoutlierのコントリビューションを分析し、RANSAC仮説の異なる設計モチベーションを持つ、いくつかの効率的で堅牢なメトリクスを提案する。
論文 参考訳(メタデータ) (2020-11-10T02:22:45Z) - Two-Sample Testing on Ranked Preference Data and the Role of Modeling
Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。
私たちのテストでは、基本的に分布に関する仮定は必要ありません。
実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文 参考訳(メタデータ) (2020-06-21T20:51:09Z) - Density of States Estimation for Out-of-Distribution Detection [69.90130863160384]
DoSEは状態推定器の密度である。
我々は、他の教師なしOOD検出器に対するDoSEの最先端性能を実証する。
論文 参考訳(メタデータ) (2020-06-16T16:06:25Z) - Safe Testing [0.9634859579172255]
e-value に基づいた仮説テスト理論を開発した。
e値に基づくテストは安全、すなわちType-Iエラーの保証を保持する。
論文 参考訳(メタデータ) (2019-06-18T20:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。