論文の概要: A Comparative Evaluation of Quantification Methods
- arxiv url: http://arxiv.org/abs/2103.03223v4
- Date: Fri, 24 Jan 2025 18:52:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:52:54.333977
- Title: A Comparative Evaluation of Quantification Methods
- Title(参考訳): 定量化法の比較評価
- Authors: Tobias Schumacher, Markus Strohmaier, Florian Lemmerich,
- Abstract要約: 量子化は、目に見えないデータに基づいてクラスラベルの分布を推定する問題を表す。
本研究では,40以上のデータセットに対する24の異なる手法を比較し,バイナリとマルチクラス定量化設定を考慮して検討する。
一般に全ての競合より優れているアルゴリズムは存在しないが、しきい値選択に基づくMedian SweepやTSMaxメソッドを含む一連の手法を識別する。
マルチクラス設定では,HDx法,一般化確率調整数,reme法,エネルギ距離最小化法,EMなど,異なるアルゴリズム群が優れた性能を発揮することを観察する。
- 参考スコア(独自算出の注目度): 2.802657211770274
- License:
- Abstract: Quantification represents the problem of estimating the distribution of class labels on unseen data. It also represents a growing research field in supervised machine learning, for which a large variety of different algorithms has been proposed in recent years. However, a comprehensive empirical comparison of quantification methods that supports algorithm selection is not available yet. In this work, we close this research gap by conducting a thorough empirical performance comparison of 24 different quantification methods on overall more than 40 data sets, considering binary as well as multiclass quantification settings. We observe that no single algorithm generally outperforms all competitors, but identify a group of methods including the threshold selection-based Median Sweep and TSMax methods, the DyS framework including the HDy method, Forman's mixture model, and Friedman's method that performs best in the binary setting. For the multiclass setting, we observe that a different, broad group of algorithms yields good performance, including the HDx method, the Generalized Probabilistic Adjusted Count, the readme method, the energy distance minimization method, the EM algorithm for quantification, and Friedman's method. We also find that tuning the underlying classifiers has in most cases only a limited impact on the quantification performance. More generally, we find that the performance on multiclass quantification is inferior to the results obtained in the binary setting. Our results can guide practitioners who intend to apply quantification algorithms and help researchers to identify opportunities for future research.
- Abstract(参考訳): 量子化は、目に見えないデータに基づいてクラスラベルの分布を推定する問題を表す。
また、近年、様々なアルゴリズムが提案されている教師あり機械学習の研究分野も成長している。
しかし,アルゴリズム選択をサポートする定量化手法の包括的比較は,まだ行われていない。
本研究では,40以上のデータセットに対する24種類の量子化手法の徹底的な性能比較を行い,バイナリとマルチクラスの量子化設定を考慮し,この研究ギャップを解消する。
一つのアルゴリズムが一般に競合に勝ることはないが、しきい値選択に基づくMedian SweepとTSMaxメソッド、HDyメソッドを含むDySフレームワーク、Formanの混合モデル、バイナリ設定において最良のFriedmanの手法を含む一連の手法を同定する。
マルチクラス設定では,HDx法,一般化確率調整数,可読化法,エネルギー距離最小化法,定量化のためのEMアルゴリズム,フリードマン法など,異なるアルゴリズム群が優れた性能を発揮することが観察された。
また、基礎となる分類器のチューニングは、ほとんどの場合、定量化性能に限定的な影響しか与えないことがわかった。
より一般的には、多クラス定量化の性能はバイナリ設定の結果よりも劣っていることが分かる。
本研究は,定量化アルゴリズムを適用しようとする実践者の指導と,今後の研究機会の特定を支援するものである。
関連論文リスト
- Different Horses for Different Courses: Comparing Bias Mitigation Algorithms in ML [9.579645248339004]
いくつかのアルゴリズムが達成した公正度に有意なばらつきを示し、学習パイプラインが公正度スコアに与える影響を明らかにした。
ほとんどのバイアス軽減技術は同等のパフォーマンスを実現することができると強調する。
私たちの研究は、アルゴリズムの開発ライフサイクルにおける様々な選択が公正性にどのように影響するか、将来の研究を促進することを願っています。
論文 参考訳(メタデータ) (2024-11-17T15:17:08Z) - A General Online Algorithm for Optimizing Complex Performance Metrics [5.726378955570775]
我々は,バイナリ,マルチクラス,マルチラベルの分類問題において,様々な複雑なパフォーマンス指標を用いて,直接的に使用可能な汎用オンラインアルゴリズムを導入,分析する。
アルゴリズムの更新と予測のルールは、過去のデータを保存することなく、非常にシンプルで計算的に効率的である。
論文 参考訳(メタデータ) (2024-06-20T21:24:47Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - Rethinking Clustering-Based Pseudo-Labeling for Unsupervised
Meta-Learning [146.11600461034746]
教師なしメタラーニングのメソッドであるCACTUsは、擬似ラベル付きクラスタリングベースのアプローチである。
このアプローチはモデルに依存しないため、教師付きアルゴリズムと組み合わせてラベルのないデータから学習することができる。
このことの核となる理由は、埋め込み空間においてクラスタリングに優しい性質が欠如していることである。
論文 参考訳(メタデータ) (2022-09-27T19:04:36Z) - Hybrid Ensemble optimized algorithm based on Genetic Programming for
imbalanced data classification [0.0]
本稿では,2種類の不均衡データ分類のための遺伝的プログラミング(GP)に基づくハイブリッドアンサンブルアルゴリズムを提案する。
実験結果から,提案手法をトレーニングセットのサイズで指定したデータセット上での性能は,マイノリティクラス予測の他の次元よりも40%,50%高い精度を示した。
論文 参考訳(メタデータ) (2021-06-02T14:14:38Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Benchmarking Simulation-Based Inference [5.3898004059026325]
確率的モデリングの最近の進歩は、確率の数値的評価を必要としないシミュレーションに基づく推論アルゴリズムを多数もたらした。
推論タスクと適切なパフォーマンス指標を備えたベンチマークを,アルゴリズムの初期選択とともに提供する。
性能指標の選択は重要であり、最先端のアルゴリズムでさえ改善の余地があり、逐次推定によりサンプリング効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-01-12T18:31:22Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。