論文の概要: Data vs classifiers, who wins?
- arxiv url: http://arxiv.org/abs/2107.07451v1
- Date: Thu, 15 Jul 2021 16:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 16:52:31.506151
- Title: Data vs classifiers, who wins?
- Title(参考訳): データ対分類器 誰が勝つ?
- Authors: Lucas F. F. Cardoso, Vitor C. A. Santos, Regiane S. Kawasaki
Franc\^es, Ricardo B. C. Prud\^encio and Ronnie C. O. Alves
- Abstract要約: 機械学習(ML)によってカバーされる分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。
データ複雑性は、一般的に、パフォーマンス評価中にモデルに沿って考慮されない。
最近の研究は、データセットとアルゴリズムを評価するための新しいアプローチとして、IRT(Item Response Theory)を採用している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The classification experiments covered by machine learning (ML) are composed
by two important parts: the data and the algorithm. As they are a fundamental
part of the problem, both must be considered when evaluating a model's
performance against a benchmark. The best classifiers need robust benchmarks to
be properly evaluated. For this, gold standard benchmarks such as OpenML-CC18
are used. However, data complexity is commonly not considered along with the
model during a performance evaluation. Recent studies employ Item Response
Theory (IRT) as a new approach to evaluating datasets and algorithms, capable
of evaluating both simultaneously. This work presents a new evaluation
methodology based on IRT and Glicko-2, jointly with the decodIRT tool developed
to guide the estimation of IRT in ML. It explores the IRT as a tool to evaluate
the OpenML-CC18 benchmark for its algorithmic evaluation capability and checks
if there is a subset of datasets more efficient than the original benchmark.
Several classifiers, from classics to ensemble, are also evaluated using the
IRT models. The Glicko-2 rating system was applied together with IRT to
summarize the innate ability and classifiers performance. It was noted that not
all OpenML-CC18 datasets are really useful for evaluating algorithms, where
only 10% were rated as being really difficult. Furthermore, it was verified the
existence of a more efficient subset containing only 50% of the original size.
While Randon Forest was singled out as the algorithm with the best innate
ability.
- Abstract(参考訳): 機械学習(ML)によってカバーされる分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。
それらが問題の基本的な部分であるため、モデルのパフォーマンスをベンチマークで評価する際には、どちらも考慮する必要がある。
最高の分類器は、適切に評価するために堅牢なベンチマークが必要です。
このため、openml-cc18のようなゴールド標準ベンチマークが用いられる。
しかし、データ複雑性は一般的に、性能評価中にモデルとともに考慮されない。
最近の研究は、データセットとアルゴリズムを同時に評価できる新しいアプローチとして、IRT(Item Response Theory)を採用している。
本研究は,IRT と Glicko-2 に基づく新しい評価手法を,ML における IRT の推定を導くために開発された deodIRT ツールと共同で提案する。
OpenML-CC18ベンチマークをアルゴリズム評価能力で評価するためのツールとしてIRTを検討し、データセットのサブセットが元のベンチマークよりも効率的かどうかをチェックする。
古典からアンサンブルまでいくつかの分類器もIRTモデルを用いて評価されている。
Glicko-2のレーティングシステムはIRTとともに適用され、自然能力と分類器のパフォーマンスを要約した。
すべてのOpenML-CC18データセットがアルゴリズムを評価するのに本当に役に立つわけではない。
さらに、元のサイズの50%しか含まないより効率的な部分集合の存在が確認された。
ランドン・フォレストは最高の能力を持つアルゴリズムとして選抜された。
関連論文リスト
- Evaluating Retrieval Quality in Retrieval-Augmented Generation [21.115495457454365]
従来のエンドツーエンド評価手法は計算コストが高い。
本稿では,検索リストの各文書をRAGシステム内の大規模言語モデルで個別に利用するeRAGを提案する。
eRAGは、ランタイムを改善し、エンドツーエンド評価の最大50倍のGPUメモリを消費する、大きな計算上のアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-04-21T21:22:28Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Machine Learning Capability: A standardized metric using case difficulty
with applications to individualized deployment of supervised machine learning [2.2060666847121864]
モデル評価は教師付き機械学習分類解析において重要な要素である。
アイテム応答理論(IRT)と機械学習を用いたコンピュータ適応テスト(CAT)は、最終分類結果とは無関係にデータセットをベンチマークすることができる。
論文 参考訳(メタデータ) (2023-02-09T00:38:42Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Learning to Hash Robustly, with Guarantees [79.68057056103014]
本稿では,理論的アルゴリズムと本質的に一致する最悪ケース保証を持つハミング空間のためのNSアルゴリズムを設計する。
理論的にも実用的にも、与えられたデータセットに対してアルゴリズムが最適化できる能力を評価する。
我々のアルゴリズムは、MNISTおよびImageNetデータセットに対する最悪のパフォーマンスのクエリを、1.8倍と2.1倍の精度でリコールする。
論文 参考訳(メタデータ) (2021-08-11T20:21:30Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Decoding machine learning benchmarks [0.0]
アイテム応答理論(IRT)は、優れた機械学習ベンチマークとなるべきものを解明するための新しいアプローチとして登場した。
IRTは、よく知られたOpenML-CC18ベンチマークを探索し、分類器の評価にどの程度適しているかを特定した。
論文 参考訳(メタデータ) (2020-07-29T14:39:41Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。