論文の概要: Decoding machine learning benchmarks
- arxiv url: http://arxiv.org/abs/2007.14870v2
- Date: Wed, 19 Aug 2020 20:08:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:43:05.038675
- Title: Decoding machine learning benchmarks
- Title(参考訳): 機械学習ベンチマークのデコード
- Authors: Lucas F. F. Cardoso, Vitor C. A. Santos, Regiane S. K. Franc\^es,
Ricardo B. C. Prud\^encio and Ronnie C. O. Alves
- Abstract要約: アイテム応答理論(IRT)は、優れた機械学習ベンチマークとなるべきものを解明するための新しいアプローチとして登場した。
IRTは、よく知られたOpenML-CC18ベンチマークを探索し、分類器の評価にどの程度適しているかを特定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the availability of benchmark machine learning (ML) repositories
(e.g., UCI, OpenML), there is no standard evaluation strategy yet capable of
pointing out which is the best set of datasets to serve as gold standard to
test different ML algorithms. In recent studies, Item Response Theory (IRT) has
emerged as a new approach to elucidate what should be a good ML benchmark. This
work applied IRT to explore the well-known OpenML-CC18 benchmark to identify
how suitable it is on the evaluation of classifiers. Several classifiers
ranging from classical to ensembles ones were evaluated using IRT models, which
could simultaneously estimate dataset difficulty and classifiers' ability. The
Glicko-2 rating system was applied on the top of IRT to summarize the innate
ability and aptitude of classifiers. It was observed that not all datasets from
OpenML-CC18 are really useful to evaluate classifiers. Most datasets evaluated
in this work (84%) contain easy instances in general (e.g., around 10% of
difficult instances only). Also, 80% of the instances in half of this benchmark
are very discriminating ones, which can be of great use for pairwise algorithm
comparison, but not useful to push classifiers abilities. This paper presents
this new evaluation methodology based on IRT as well as the tool decodIRT,
developed to guide IRT estimation over ML benchmarks.
- Abstract(参考訳): ベンチマーク機械学習(ML)レポジトリ(UCI、OpenMLなど)が利用可能であるにもかかわらず、異なるMLアルゴリズムをテストするためのゴールドスタンダードとして機能するデータセットのどれが最適であるかを指摘できる標準評価戦略はまだ存在しない。
最近の研究で、項目応答理論(IRT)は、良いMLベンチマークであるべきものを解明するための新しいアプローチとして登場した。
この研究はIRTを用いてよく知られたOpenML-CC18ベンチマークを調べ、それが分類器の評価にどの程度適しているかを特定した。
古典からアンサンブルまで、いくつかの分類器をIRTモデルを用いて評価し、データセットの難易度と分類器の能力を同時に推定した。
Glicko-2の評価システムはIRTの上部に応用され、分類器の能力と適性を要約した。
OpenML-CC18のすべてのデータセットが、分類器を評価するのに本当に役立つわけではないことが観察された。
この研究で評価されたほとんどのデータセット(84%)は一般に簡単なインスタンスを含んでいる(例えば、難しいインスタンスの約10%)。
また、このベンチマークの半分のインスタンスの80%は非常に差別的であり、ペアのアルゴリズム比較に非常に役立ちますが、分類器の能力を押し上げるには役に立ちません。
本稿では IRT に基づく新しい評価手法と IRT の評価をML ベンチマーク上で導くツール deodIRT を提案する。
関連論文リスト
- Rethinking Few-shot Class-incremental Learning: Learning from Yourself [31.268559330366404]
FSCIL (Few-shot class-incremental Learning) は、限られたサンプルを持つシーケンシャルクラスを数ショットで学習することを目的としている。
FSCILの一般的なベンチマークは、古典的なクラス増分学習設定を継承し、評価指標として平均精度(aAcc)と最終タスク平均精度(lAcc)を用いる。
我々は、さらに公平な評価を提供するために設計された一般化平均精度(gAcc)と呼ばれる新しい指標を提供する。
論文 参考訳(メタデータ) (2024-07-10T08:52:56Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Machine Learning Capability: A standardized metric using case difficulty
with applications to individualized deployment of supervised machine learning [2.2060666847121864]
モデル評価は教師付き機械学習分類解析において重要な要素である。
アイテム応答理論(IRT)と機械学習を用いたコンピュータ適応テスト(CAT)は、最終分類結果とは無関係にデータセットをベンチマークすることができる。
論文 参考訳(メタデータ) (2023-02-09T00:38:42Z) - Decision Making for Hierarchical Multi-label Classification with
Multidimensional Local Precision Rate [4.812468844362369]
我々は,各クラスの各対象に対して,多次元局所精度率 (mLPR) と呼ばれる新しい統計モデルを導入する。
我々は,mLPRの下位順序でクラス間でオブジェクトをソートするだけで,クラス階層を確実にすることができることを示す。
これに対し、階層を尊重しながら推定mLPRを用いてCATCHの実証バージョンを最大化する新しいアルゴリズムであるHierRankを導入する。
論文 参考訳(メタデータ) (2022-05-16T17:43:35Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Data vs classifiers, who wins? [0.0]
機械学習(ML)によってカバーされる分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。
データ複雑性は、一般的に、パフォーマンス評価中にモデルに沿って考慮されない。
最近の研究は、データセットとアルゴリズムを評価するための新しいアプローチとして、IRT(Item Response Theory)を採用している。
論文 参考訳(メタデータ) (2021-07-15T16:55:15Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - Minimum Variance Embedded Auto-associative Kernel Extreme Learning
Machine for One-class Classification [1.4146420810689422]
VAAKELMは、自己連想型カーネル極端学習マシンの拡張である。
アーキテクチャ内に最小分散情報を埋め込んで、クラス内の分散を減らす。
これは、一級分類に対する再構成に基づくアプローチに従い、再構成エラーを最小限にする。
論文 参考訳(メタデータ) (2020-11-24T17:00:30Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。