論文の概要: Comparative Study on the Performance of Categorical Variable Encoders in
Classification and Regression Tasks
- arxiv url: http://arxiv.org/abs/2401.09682v1
- Date: Thu, 18 Jan 2024 02:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 18:13:36.527062
- Title: Comparative Study on the Performance of Categorical Variable Encoders in
Classification and Regression Tasks
- Title(参考訳): 分類・回帰作業におけるカテゴリ可変エンコーダの性能比較
- Authors: Wenbin Zhu, Runwen Qiu and Ying Fu
- Abstract要約: 本研究では,(1)入力に対するアフィン変換を暗黙的に実行するAITモデル,2)決定木に基づく木に基づくモデル,3)kNNなどの他のモデルに分類する。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また、ターゲットエンコーダとその変種が木モデルに適したエンコーダである理由についても説明する。
- 参考スコア(独自算出の注目度): 11.721062526796976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Categorical variables often appear in datasets for classification and
regression tasks, and they need to be encoded into numerical values before
training. Since many encoders have been developed and can significantly impact
performance, choosing the appropriate encoder for a task becomes a
time-consuming yet important practical issue. This study broadly classifies
machine learning models into three categories: 1) ATI models that implicitly
perform affine transformations on inputs, such as multi-layer perceptron neural
network; 2) Tree-based models that are based on decision trees, such as random
forest; and 3) the rest, such as kNN. Theoretically, we prove that the one-hot
encoder is the best choice for ATI models in the sense that it can mimic any
other encoders by learning suitable weights from the data. We also explain why
the target encoder and its variants are the most suitable encoders for
tree-based models. This study conducted comprehensive computational experiments
to evaluate 14 encoders, including one-hot and target encoders, along with
eight common machine-learning models on 28 datasets. The computational results
agree with our theoretical analysis. The findings in this study shed light on
how to select the suitable encoder for data scientists in fields such as fraud
detection, disease diagnosis, etc.
- Abstract(参考訳): 分類変数は分類や回帰タスクのためのデータセットによく現れ、トレーニング前に数値にエンコードする必要がある。
多くのエンコーダが開発され、性能に大きな影響を与えるため、タスクに適したエンコーダを選択することは、時間がかかりながら重要な実践問題となる。
本研究は機械学習モデルを3つのカテゴリに分類する。
1) 多層パーセプトロンニューラルネットワークなどの入力に対して暗黙的にアフィン変換を行うATIモデル
2)ランダムフォレストなどの決定木に基づく木型モデル
3) 残りは KNN などです。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また,対象エンコーダとその変種がツリーベースモデルに適したエンコーダである理由についても述べる。
本研究では、28データセット上の8つの一般的な機械学習モデルとともに、1ホットおよびターゲットエンコーダを含む14のエンコーダを評価するための総合的な計算実験を行った。
計算結果は我々の理論分析と一致する。
本研究の知見は,不正検出や疾患診断などの分野におけるデータサイエンティストに適したエンコーダの選択方法に光を当てた。
関連論文リスト
- Tissue Concepts: supervised foundation models in computational pathology [2.246872800470769]
基礎モデルのトレーニングは通常、データ、計算、時間の観点から非常に高価です。
本稿では,これらの費用を大幅に削減する教師あり学習手法を提案する。
提案手法は, 912,000個のパッチに対して16種類の分類, セグメンテーション, 検出タスクを組み合わせることで, 共同エンコーダを訓練するためのマルチタスク学習に基づいている。
論文 参考訳(メタデータ) (2024-09-05T13:32:40Z) - A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Explainable AI for Comparative Analysis of Intrusion Detection Models [20.683181384051395]
本研究は,ネットワークトラフィックから侵入検出を行うために,各種機械学習モデルを二分分類および多クラス分類のタスクに解析する。
すべてのモデルをUNSW-NB15データセットで90%の精度でトレーニングしました。
また、Random Forestは正確さ、時間効率、堅牢性という点で最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2024-06-14T03:11:01Z) - 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Knowledge-integrated AutoEncoder Model [0.0]
本稿では,外部知識源を学習プロセスに統合できるAEモデル開発のための新しいアプローチを提案する。
提案モデルは,3つの異なる科学分野の大規模データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-12T18:00:12Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。