論文の概要: Enhancing Classifier Evaluation: A Fairer Benchmarking Strategy Based on Ability and Robustness
- arxiv url: http://arxiv.org/abs/2504.09759v1
- Date: Sun, 13 Apr 2025 23:54:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:32.896311
- Title: Enhancing Classifier Evaluation: A Fairer Benchmarking Strategy Based on Ability and Robustness
- Title(参考訳): 分類器評価の強化: 能力とロバスト性に基づくより公平なベンチマーク戦略
- Authors: Lucas Cardoso, Vitor Santos, José Ribeiro, Regiane Kawasaki, Ricardo Prudêncio, Ronnie Alves,
- Abstract要約: 本研究では,項目応答理論(IRT)とGlicko-2レーティングシステムを組み合わせた新しい評価手法を提案する。
IRTは難しいインスタンスよりもパフォーマンスに基づいて分類器の能力を評価し、Glicko-2はパフォーマンスメトリクスを更新します。
OpenML-CC18ベンチマークを使用したケーススタディでは、データセットの15%だけが本当に難しいことが判明した。
- 参考スコア(独自算出の注目度): 0.4749981032986242
- License:
- Abstract: Benchmarking is a fundamental practice in machine learning (ML) for comparing the performance of classification algorithms. However, traditional evaluation methods often overlook a critical aspect: the joint consideration of dataset complexity and an algorithm's ability to generalize. Without this dual perspective, assessments may favor models that perform well on easy instances while failing to capture their true robustness. To address this limitation, this study introduces a novel evaluation methodology that combines Item Response Theory (IRT) with the Glicko-2 rating system, originally developed to measure player strength in competitive games. IRT assesses classifier ability based on performance over difficult instances, while Glicko-2 updates performance metrics - such as rating, deviation, and volatility - via simulated tournaments between classifiers. This combined approach provides a fairer and more nuanced measure of algorithm capability. A case study using the OpenML-CC18 benchmark showed that only 15% of the datasets are truly challenging and that a reduced subset with 50% of the original datasets offers comparable evaluation power. Among the algorithms tested, Random Forest achieved the highest ability score. The results highlight the importance of improving benchmark design by focusing on dataset quality and adopting evaluation strategies that reflect both difficulty and classifier proficiency.
- Abstract(参考訳): ベンチマークは、分類アルゴリズムのパフォーマンスを比較するための機械学習(ML)の基本的なプラクティスである。
しかし、従来の評価手法は、データセットの複雑さと一般化するアルゴリズムの能力を共同で検討するという、重要な側面をしばしば見落としている。
この双対的な視点がなければ、アセスメントは、真の堅牢性を捉えることに失敗しながら、簡単なインスタンスでうまく機能するモデルを好むかもしれない。
この制限に対処するため,本研究では,アイテム反応理論(IRT)とGlicko-2レーティングシステムを組み合わせた新たな評価手法を提案する。
IRTは、難しいインスタンスよりもパフォーマンスに基づいて分類器の能力を評価し、Glicko-2は、分類器間のシミュレートされたトーナメントを通じて、評価、偏差、ボラティリティなどのパフォーマンスメトリクスを更新する。
この組み合わせアプローチは、アルゴリズム能力のより公平でよりニュアンスな尺度を提供する。
OpenML-CC18ベンチマークを使用したケーススタディでは、データセットの15%だけが真に困難であり、元のデータセットの50%のサブセットが同等の評価能力を提供することがわかった。
テストされたアルゴリズムのうち、ランダムフォレストは最高能力を獲得した。
その結果、データセットの品質を重視し、難易度と分類器の習熟度の両方を反映した評価戦略を採用することで、ベンチマーク設計を改善することの重要性を強調した。
関連論文リスト
- Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Adaptive Hierarchical Similarity Metric Learning with Noisy Labels [138.41576366096137]
適応的階層的類似度メトリック学習法を提案する。
ノイズに敏感な2つの情報、すなわち、クラスワイドのばらつきとサンプルワイドの一貫性を考える。
提案手法は,現在の深層学習手法と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-29T02:12:18Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - Data vs classifiers, who wins? [0.0]
機械学習(ML)によってカバーされる分類実験は、データとアルゴリズムの2つの重要な部分で構成されている。
データ複雑性は、一般的に、パフォーマンス評価中にモデルに沿って考慮されない。
最近の研究は、データセットとアルゴリズムを評価するための新しいアプローチとして、IRT(Item Response Theory)を採用している。
論文 参考訳(メタデータ) (2021-07-15T16:55:15Z) - Decoding machine learning benchmarks [0.0]
アイテム応答理論(IRT)は、優れた機械学習ベンチマークとなるべきものを解明するための新しいアプローチとして登場した。
IRTは、よく知られたOpenML-CC18ベンチマークを探索し、分類器の評価にどの程度適しているかを特定した。
論文 参考訳(メタデータ) (2020-07-29T14:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。