論文の概要: Clustering Indices based Automatic Classification Model Selection
- arxiv url: http://arxiv.org/abs/2305.13926v1
- Date: Tue, 23 May 2023 10:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 16:59:46.980621
- Title: Clustering Indices based Automatic Classification Model Selection
- Title(参考訳): クラスタリング指標に基づく自動分類モデル選択
- Authors: Sudarsun Santhiappan, Nitin Shravan, Balaraman Ravindran
- Abstract要約: そこで本研究では,候補モデルクラスから自動分類モデル選択を行う手法を提案する。
データセットクラスタリング指標を計算し、学習した回帰器を用いて予測された分類性能を直接予測する。
また,モデル選択法に基づくデータ分類のためのエンドツーエンド自動MLシステムを提案する。
- 参考スコア(独自算出の注目度): 16.096824533334352
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Classification model selection is a process of identifying a suitable model
class for a given classification task on a dataset. Traditionally, model
selection is based on cross-validation, meta-learning, and user preferences,
which are often time-consuming and resource-intensive. The performance of any
machine learning classification task depends on the choice of the model class,
the learning algorithm, and the dataset's characteristics. Our work proposes a
novel method for automatic classification model selection from a set of
candidate model classes by determining the empirical model-fitness for a
dataset based only on its clustering indices. Clustering Indices measure the
ability of a clustering algorithm to induce good quality neighborhoods with
similar data characteristics. We propose a regression task for a given model
class, where the clustering indices of a given dataset form the features and
the dependent variable represents the expected classification performance. We
compute the dataset clustering indices and directly predict the expected
classification performance using the learned regressor for each candidate model
class to recommend a suitable model class for dataset classification. We
evaluate our model selection method through cross-validation with 60 publicly
available binary class datasets and show that our top3 model recommendation is
accurate for over 45 of 60 datasets. We also propose an end-to-end Automated ML
system for data classification based on our model selection method. We evaluate
our end-to-end system against popular commercial and noncommercial Automated ML
systems using a different collection of 25 public domain binary class datasets.
We show that the proposed system outperforms other methods with an excellent
average rank of 1.68.
- Abstract(参考訳): 分類モデル選択は、データセット上の所定の分類タスクに適したモデルクラスを識別するプロセスである。
伝統的にモデルの選択は、横断評価、メタラーニング、ユーザの好みに基づいており、それらはしばしば時間消費とリソース集約である。
任意の機械学習分類タスクのパフォーマンスは、モデルクラスの選択、学習アルゴリズム、およびデータセットの特徴に依存する。
本研究では,データセットのクラスタリング指標のみに基づいて経験的モデル適合性を決定することにより,候補モデルクラスからモデルの自動選択手法を提案する。
クラスタリング指標は、同様のデータ特性を持つ良質な近傍を誘導するクラスタリングアルゴリズムの能力を測定する。
本研究では,与えられたデータセットのクラスタリング指標が特徴を表現し,従属変数が期待される分類性能を表すモデルクラスの回帰タスクを提案する。
我々は,データセットクラスタリング指標を計算し,学習された回帰器を用いて予測された分類性能を直接予測し,データセット分類に適したモデルクラスを推奨する。
我々は、60の公開バイナリクラスデータセットを用いたクロスバリデーションによるモデル選択手法を評価し、上位3のモデル推奨が60のデータセットのうち45以上において正確であることを示す。
また,モデル選択法に基づくデータ分類のためのエンドツーエンド自動MLシステムを提案する。
25のパブリックドメインバイナリクラスデータセットの異なるコレクションを用いて、一般的な商用および非商用のMLシステムに対するエンドツーエンドシステムの評価を行った。
提案手法は,平均ランク1.68の他の手法よりも優れていた。
関連論文リスト
- Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Automatic learning algorithm selection for classification via
convolutional neural networks [0.0]
本研究の目的は,メタ機能を特定することなく,データ固有の構造を学習することである。
シミュレーションデータセットを用いた実験により, 線形および非線形パターンの同定において, 提案手法がほぼ完璧な性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-05-16T01:57:01Z) - Anomaly Detection using Ensemble Classification and Evidence Theory [62.997667081978825]
本稿では,アンサンブル分類とエビデンス理論を用いた新しい検出手法を提案する。
固体アンサンブル分類器を構築するためのプール選択戦略が提示される。
我々は異常検出手法の不確実性を利用する。
論文 参考訳(メタデータ) (2022-12-23T00:50:41Z) - Which is the best model for my data? [0.0]
提案されたメタ学習アプローチは、機械学習に依存し、4つの主要なステップを含む。
本稿では,正と負の測度を含む集約測度値において,情報消去の問題に対処する62のメタ特徴の集合について述べる。
我々のメタ学習アプローチは、合成データセットの91%と実世界のデータセットの87%に対して、最適なモデルを正確に予測できることを示します。
論文 参考訳(メタデータ) (2022-10-26T13:15:43Z) - A hybrid model-based and learning-based approach for classification
using limited number of training samples [13.60714541247498]
本稿では,物理に基づく統計モデルと学習に基づく分類器の両方を利用するハイブリッド分類手法であるHyPhyLearnを提案する。
提案手法は、HyPhyLearnが学習ベースおよび統計モデルに基づく分類器の個人的アプローチに関連する課題を軽減するという予想に基づいている。
論文 参考訳(メタデータ) (2021-06-25T05:19:50Z) - Meta Learning for Few-Shot One-class Classification [0.0]
メタ学習問題として,一級分類における意味のある特徴の学習を定式化する。
これらの表現を学習するには、類似したタスクからのマルチクラスデータのみが必要である。
数ショットの分類データセットを、数ショットの1クラスの分類シナリオに適応させることで、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2020-09-11T11:35:28Z) - Few-shot Classification via Adaptive Attention [93.06105498633492]
ごく少数の参照サンプルに基づいて,クエリサンプル表現を最適化し,高速に適応する新しい数ショット学習手法を提案する。
実験で実証したように,提案モデルでは,様々なベンチマーク数ショット分類と微粒化認識データセットを用いて,最先端の分類結果を達成している。
論文 参考訳(メタデータ) (2020-08-06T05:52:59Z) - Multi-label learning for dynamic model type recommendation [13.304462985219237]
本稿では,オンラインローカルプール(OLP)技術のための問題非依存型動的ベースクラス化モデルを提案する。
提案するフレームワークは,関連するモデルタイプセットを推奨するマルチラベルメタ分類器を構築する。
実験の結果、異なるデータ分布は局所的な範囲で異なるモデルタイプを好んだ。
論文 参考訳(メタデータ) (2020-04-01T16:42:12Z) - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective [98.70226503904402]
現実世界のオブジェクトの周波数は、しばしば電力法則に従い、長い尾のクラス分布を持つデータセット間のミスマッチを引き起こす。
メタラーニング手法を用いて,クラス条件分布の違いを明示的に推定し,古典的なクラスバランス学習を強化することを提案する。
論文 参考訳(メタデータ) (2020-03-24T11:28:42Z) - Selecting Relevant Features from a Multi-domain Representation for
Few-shot Classification [91.67977602992657]
本稿では,従来の特徴適応手法よりもシンプルかつ効果的である特徴選択に基づく新しい戦略を提案する。
このような特徴の上に構築された単純な非パラメトリック分類器は高い精度を示し、訓練中に見たことのない領域に一般化する。
論文 参考訳(メタデータ) (2020-03-20T15:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。