論文の概要: Which is the best model for my data?
- arxiv url: http://arxiv.org/abs/2210.14687v1
- Date: Wed, 26 Oct 2022 13:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:26:53.142183
- Title: Which is the best model for my data?
- Title(参考訳): 私のデータに最適なモデルは何ですか?
- Authors: Gonzalo N\'apoles and Isel Grau and \c{C}i\c{c}ek G\"uven and
Or\c{c}un \"Ozdemir and Yamisleydi Salgueiro
- Abstract要約: 提案されたメタ学習アプローチは、機械学習に依存し、4つの主要なステップを含む。
本稿では,正と負の測度を含む集約測度値において,情報消去の問題に対処する62のメタ特徴の集合について述べる。
我々のメタ学習アプローチは、合成データセットの91%と実世界のデータセットの87%に対して、最適なモデルを正確に予測できることを示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we tackle the problem of selecting the optimal model for a
given structured pattern classification dataset. In this context, a model can
be understood as a classifier and a hyperparameter configuration. The proposed
meta-learning approach purely relies on machine learning and involves four
major steps. Firstly, we present a concise collection of 62 meta-features that
address the problem of information cancellation when aggregation measure values
involving positive and negative measurements. Secondly, we describe two
different approaches for synthetic data generation intending to enlarge the
training data. Thirdly, we fit a set of pre-defined classification models for
each classification problem while optimizing their hyperparameters using grid
search. The goal is to create a meta-dataset such that each row denotes a
multilabel instance describing a specific problem. The features of these
meta-instances denote the statistical properties of the generated datasets,
while the labels encode the grid search results as binary vectors such that
best-performing models are positively labeled. Finally, we tackle the model
selection problem with several multilabel classifiers, including a
Convolutional Neural Network designed to handle tabular data. The simulation
results show that our meta-learning approach can correctly predict an optimal
model for 91% of the synthetic datasets and for 87% of the real-world datasets.
Furthermore, we noticed that most meta-classifiers produced better results when
using our meta-features. Overall, our proposal differs from other meta-learning
approaches since it tackles the algorithm selection and hyperparameter tuning
problems in a single step. Toward the end, we perform a feature importance
analysis to determine which statistical features drive the model selection
mechanism.
- Abstract(参考訳): 本稿では,与えられた構造化パターン分類データセットの最適モデルを選択する問題に取り組む。
この文脈では、モデルは分類器とハイパーパラメータの構成として理解することができる。
提案されたメタラーニングアプローチは、純粋に機械学習に依存し、4つの大きなステップを含む。
まず,正と負の測度を含む集約測度値において,情報消去の問題に対処する62個のメタ特徴の簡潔なコレクションを提案する。
次に,学習データの拡大を目指す合成データ生成のための2つの異なるアプローチについて述べる。
第3に、グリッド探索を用いてハイパーパラメータを最適化しながら、分類問題ごとに予め定義された分類モデルに適合する。
目標は、各行が特定の問題を記述するマルチラベルインスタンスを表すメタデータセットを作成することである。
これらのメタインスタンスの特徴は生成されたデータセットの統計特性を示し、ラベルはグリッド検索結果を2進ベクトルとしてエンコードし、最高の性能モデルが正にラベル付けされる。
最後に、表データを扱うように設計された畳み込みニューラルネットワークを含む、複数のマルチラベル分類器でモデル選択問題に取り組む。
シミュレーションの結果,メタラーニング手法は,合成データセットの91%と実世界のデータセットの87%に対して,最適なモデルを正確に予測できることがわかった。
さらに,ほとんどのメタ分類器は,メタ機能を用いた場合,より良い結果が得られることがわかった。
提案手法は,アルゴリズム選択問題やハイパーパラメータチューニング問題に1ステップで対処するため,他のメタ学習手法とは異なる。
最後に,どの統計的特徴がモデル選択機構を駆動するかを決定するために,特徴重要度分析を行う。
関連論文リスト
- An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Quick-Tune: Quickly Learning Which Pretrained Model to Finetune and How [62.467716468917224]
本稿では,最適事前学習モデルとハイパーパラメータを共同で探索し,微調整する手法を提案する。
本手法は,一連のデータセット上で,事前学習したモデルの性能に関する知識を伝達する。
得られたアプローチによって、新しいデータセットの正確な事前学習モデルを迅速に選択できることを実証的に実証する。
論文 参考訳(メタデータ) (2023-06-06T16:15:26Z) - Automatic learning algorithm selection for classification via
convolutional neural networks [0.0]
本研究の目的は,メタ機能を特定することなく,データ固有の構造を学習することである。
シミュレーションデータセットを用いた実験により, 線形および非線形パターンの同定において, 提案手法がほぼ完璧な性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-05-16T01:57:01Z) - Improving Group Lasso for high-dimensional categorical data [0.90238471756546]
群ラッソ(英: Group Lasso)は、連続変数または分類変数を選択するためのよく知られた効率的なアルゴリズムである。
グループラッソのスパース解を得るための2段階の手順を提案する。
本手法は,予測精度やモデル次元に関して,技術アルゴリズムの状態よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-25T13:43:57Z) - Low-rank Dictionary Learning for Unsupervised Feature Selection [11.634317251468968]
低ランク表現に辞書学習のアイデアを適用することで、教師なしの新たな特徴選択手法を導入する。
非教師付き特徴選択のための統一目的関数は、$ell_2,1$-norm正規化によってスパースな方法で提案される。
実験の結果,提案手法は最先端のアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-06-21T13:39:10Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z) - Machine learning with incomplete datasets using multi-objective
optimization models [1.933681537640272]
分類モデルが学習されている間、欠落した値を扱うオンラインアプローチを提案する。
命令とモデル選択のための2つの目的関数を持つ多目的最適化モデルを開発する。
NSGA IIに基づく進化的アルゴリズムを用いて最適解を求める。
論文 参考訳(メタデータ) (2020-12-04T03:44:33Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。