論文の概要: A Comparison of Machine Learning Methods for Data with High-Cardinality
Categorical Variables
- arxiv url: http://arxiv.org/abs/2307.02071v1
- Date: Wed, 5 Jul 2023 07:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:42:42.402472
- Title: A Comparison of Machine Learning Methods for Data with High-Cardinality
Categorical Variables
- Title(参考訳): 高次カテゴリ変数を持つデータに対する機械学習手法の比較
- Authors: Fabio Sigrist
- Abstract要約: 機械学習の手法は、高心身変数では困難である。
本稿では,最も成功した機械学習手法の2つのバージョンを実証的に比較する。
- 参考スコア(独自算出の注目度): 6.85316573653194
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: High-cardinality categorical variables are variables for which the number of
different levels is large relative to the sample size of a data set, or in
other words, there are few data points per level. Machine learning methods can
have difficulties with high-cardinality variables. In this article, we
empirically compare several versions of two of the most successful machine
learning methods, tree-boosting and deep neural networks, and linear mixed
effects models using multiple tabular data sets with high-cardinality
categorical variables. We find that, first, machine learning models with random
effects have higher prediction accuracy than their classical counterparts
without random effects, and, second, tree-boosting with random effects
outperforms deep neural networks with random effects.
- Abstract(参考訳): 高カーディナリティ分類変数(英: high-cardinality categorical variable)とは、異なるレベルの数がデータセットのサンプルサイズに対して大きい変数である。
機械学習の手法は、高心身変数では困難である。
本稿では,最も成功した2つの機械学習手法,ツリーブーストとディープニューラルネットワーク,および高心性カテゴリ変数を持つ複数の表層データセットを用いた線形混合効果モデルについて実験的に比較する。
まず、ランダム効果を持つ機械学習モデルは、ランダム効果のない従来のモデルよりも予測精度が高く、さらにランダム効果を持つツリーブースティングは、ランダム効果を持つディープニューラルネットワークよりも優れています。
関連論文リスト
- Machine Learning for predicting chaotic systems [0.0]
我々は、よく調整された単純な手法と、未調整のベースライン手法が、しばしば最先端のディープラーニングモデルより優れていることを示す。
これらの結果は、データ特性と利用可能な計算資源に対するマッチング予測手法の重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-29T16:34:47Z) - Can neural networks count digit frequency? [16.04455549316468]
本研究では,従来の機械学習モデルとニューラルネットワークの性能を比較し,各桁の出現頻度を推定する。
ニューラルネットワークは6桁と10桁の両方のレグレッションと分類の指標で、従来の機械学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-09-25T03:45:36Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Learning Likelihood Ratios with Neural Network Classifiers [0.12277343096128711]
確率比の近似は、ニューラルネットワークベースの分類器の巧妙なパラメトリゼーションを用いて計算することができる。
本稿では、いくつかの共通損失関数の性能と分類器出力のパラメトリゼーションを詳述した一連の実証研究について述べる。
論文 参考訳(メタデータ) (2023-05-17T18:11:38Z) - Hypothesis Testing and Machine Learning: Interpreting Variable Effects
in Deep Artificial Neural Networks using Cohen's f2 [0.0]
深層人工ニューラルネットワークは多くの分野において高い予測性能を示す。
しかし、統計的推測をする余裕はなく、ブラックボックスの操作は人間が理解するには複雑すぎる。
本稿では、現在のXAI手法を拡張し、機械学習のためのモデルに依存しない仮説テストフレームワークを開発する。
論文 参考訳(メタデータ) (2023-02-02T20:43:37Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z) - Quantifying Inherent Randomness in Machine Learning Algorithms [7.591218883378448]
本稿では,モデル学習におけるランダム性,およびデータセットのトレーニングおよびテストサブセットへの分割におけるランダム性の影響を実験的に検討する。
我々は、ランダムフォレスト(RF)、グラディエントブースティングマシン(GBM)、フィードフォワードニューラルネットワーク(FFNN)の予測性能の変動の大きさを定量化し、比較する。
論文 参考訳(メタデータ) (2022-06-24T15:49:52Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Two-step penalised logistic regression for multi-omic data with an
application to cardiometabolic syndrome [62.997667081978825]
我々は,各層で変数選択を行うマルチオミックロジスティック回帰に対する2段階のアプローチを実装した。
私たちのアプローチは、可能な限り多くの関連する予測子を選択することを目標とすべきです。
提案手法により,分子レベルでの心筋メタボリックシンドロームの特徴を同定することができる。
論文 参考訳(メタデータ) (2020-08-01T10:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。