論文の概要: A Comparative Evaluation of Quantification Methods
- arxiv url: http://arxiv.org/abs/2103.03223v3
- Date: Wed, 18 Oct 2023 14:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 21:22:29.751193
- Title: A Comparative Evaluation of Quantification Methods
- Title(参考訳): 定量化法の比較評価
- Authors: Tobias Schumacher, Markus Strohmaier, Florian Lemmerich
- Abstract要約: 量子化は、データセット内のクラス分布を予測する問題を表す。
近年,様々なアルゴリズムが提案されている。
40以上のデータセットで24の異なるメソッドを比較します。
- 参考スコア(独自算出の注目度): 3.1499058381005227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantification represents the problem of predicting class distributions in a
dataset. It also represents a growing research field in supervised machine
learning, for which a large variety of different algorithms has been proposed
in recent years. However, a comprehensive empirical comparison of
quantification methods that supports algorithm selection is not available yet.
In this work, we close this research gap by conducting a thorough empirical
performance comparison of 24 different quantification methods on overall more
than 40 data sets, considering binary as well as multiclass quantification
settings. We observe that no single algorithm generally outperforms all
competitors, but identify a group of methods including the threshold
selection-based Median Sweep and TSMax methods, the DyS framework, and
Friedman's method that performs best in the binary setting. For the multiclass
setting, we observe that a different group of algorithms yields good
performance, including the Generalized Probabilistic Adjusted Count, the readme
method, the energy distance minimization method, the EM algorithm for
quantification, and Friedman's method. We also find that tuning the underlying
classifiers has in most cases only a limited impact on the quantification
performance. More generally, we find that the performance on multiclass
quantification is inferior to the results obtained in the binary setting. Our
results can guide practitioners who intend to apply quantification algorithms
and help researchers to identify opportunities for future research.
- Abstract(参考訳): 定量化は、データセット内のクラス分布を予測する問題を表す。
また、近年、様々なアルゴリズムが提案されている教師付き機械学習の研究分野も拡大している。
しかし,アルゴリズム選択をサポートする定量化手法の包括的比較は未だ行われていない。
本研究では,40以上のデータセットに対する24種類の量子化手法の徹底的な性能比較を行い,バイナリとマルチクラスの量子化設定を考慮し,この研究ギャップを解消する。
一つのアルゴリズムが一般に競合に勝ることはないが、しきい値選択に基づくMedian SweepやTSMaxメソッド、DySフレームワーク、Friedmanのメソッドなど、バイナリ環境で最高の性能を発揮するメソッド群を識別する。
マルチクラス設定では,一般化確率的調整数,readme法,エネルギー距離最小化法,em法,フリードマン法など,異なるアルゴリズム群が優れた性能をもたらすことを観測した。
また、基礎となる分類器のチューニングは、ほとんどの場合、定量化性能に限られた影響を与えている。
より一般的には、多クラス定量化の性能はバイナリ設定の結果よりも劣っていることが分かる。
本研究は,定量化アルゴリズムを適用しようとする実践者の指導と,今後の研究の機会の特定を支援する。
関連論文リスト
- A General Online Algorithm for Optimizing Complex Performance Metrics [5.726378955570775]
我々は,バイナリ,マルチクラス,マルチラベルの分類問題において,様々な複雑なパフォーマンス指標を用いて,直接的に使用可能な汎用オンラインアルゴリズムを導入,分析する。
アルゴリズムの更新と予測のルールは、過去のデータを保存することなく、非常にシンプルで計算的に効率的である。
論文 参考訳(メタデータ) (2024-06-20T21:24:47Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Hybrid Ensemble optimized algorithm based on Genetic Programming for
imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。
実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文 参考訳(メタデータ) (2021-06-02T14:14:38Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Probabilistic Diagnostic Tests for Degradation Problems in Supervised
Learning [0.0]
分類アルゴリズムにおけるクラス不均衡、重なり合い、小さな分散、ノイズラベル、スパース限界精度などの問題。
各問題の兆候と症状の同定に基づく確率診断モデルを示す。
いくつかの教師付きアルゴリズムの動作と性能は、トレーニングセットにそのような問題がある場合に研究される。
論文 参考訳(メタデータ) (2020-04-06T20:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。