論文の概要: Comparative Study on the Performance of Categorical Variable Encoders in
Classification and Regression Tasks
- arxiv url: http://arxiv.org/abs/2401.09682v1
- Date: Thu, 18 Jan 2024 02:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 18:13:36.527062
- Title: Comparative Study on the Performance of Categorical Variable Encoders in
Classification and Regression Tasks
- Title(参考訳): 分類・回帰作業におけるカテゴリ可変エンコーダの性能比較
- Authors: Wenbin Zhu, Runwen Qiu and Ying Fu
- Abstract要約: 本研究では,(1)入力に対するアフィン変換を暗黙的に実行するAITモデル,2)決定木に基づく木に基づくモデル,3)kNNなどの他のモデルに分類する。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また、ターゲットエンコーダとその変種が木モデルに適したエンコーダである理由についても説明する。
- 参考スコア(独自算出の注目度): 11.721062526796976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Categorical variables often appear in datasets for classification and
regression tasks, and they need to be encoded into numerical values before
training. Since many encoders have been developed and can significantly impact
performance, choosing the appropriate encoder for a task becomes a
time-consuming yet important practical issue. This study broadly classifies
machine learning models into three categories: 1) ATI models that implicitly
perform affine transformations on inputs, such as multi-layer perceptron neural
network; 2) Tree-based models that are based on decision trees, such as random
forest; and 3) the rest, such as kNN. Theoretically, we prove that the one-hot
encoder is the best choice for ATI models in the sense that it can mimic any
other encoders by learning suitable weights from the data. We also explain why
the target encoder and its variants are the most suitable encoders for
tree-based models. This study conducted comprehensive computational experiments
to evaluate 14 encoders, including one-hot and target encoders, along with
eight common machine-learning models on 28 datasets. The computational results
agree with our theoretical analysis. The findings in this study shed light on
how to select the suitable encoder for data scientists in fields such as fraud
detection, disease diagnosis, etc.
- Abstract(参考訳): 分類変数は分類や回帰タスクのためのデータセットによく現れ、トレーニング前に数値にエンコードする必要がある。
多くのエンコーダが開発され、性能に大きな影響を与えるため、タスクに適したエンコーダを選択することは、時間がかかりながら重要な実践問題となる。
本研究は機械学習モデルを3つのカテゴリに分類する。
1) 多層パーセプトロンニューラルネットワークなどの入力に対して暗黙的にアフィン変換を行うATIモデル
2)ランダムフォレストなどの決定木に基づく木型モデル
3) 残りは KNN などです。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また,対象エンコーダとその変種がツリーベースモデルに適したエンコーダである理由についても述べる。
本研究では、28データセット上の8つの一般的な機械学習モデルとともに、1ホットおよびターゲットエンコーダを含む14のエンコーダを評価するための総合的な計算実験を行った。
計算結果は我々の理論分析と一致する。
本研究の知見は,不正検出や疾患診断などの分野におけるデータサイエンティストに適したエンコーダの選択方法に光を当てた。
関連論文リスト
- Data-driven decoding of quantum error correcting codes using graph
neural networks [0.0]
グラフニューラルネットワーク(GNN)を用いたモデルフリーでデータ駆動型デコーディングアプローチについて検討する。
GNNベースのデコーダは、シミュレーションデータのみを与えられた表面コード上での回路レベルのノイズに対する整合デコーダよりも優れていることを示す。
その結果、デコードに対する純粋にデータ駆動型アプローチが、実用的な量子誤り訂正のための実行可能な選択肢である可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-03T17:25:45Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Knowledge-integrated AutoEncoder Model [0.0]
本稿では,外部知識源を学習プロセスに統合できるAEモデル開発のための新しいアプローチを提案する。
提案モデルは,3つの異なる科学分野の大規模データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-12T18:00:12Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - Cats: Complementary CNN and Transformer Encoders for Segmentation [13.288195115791758]
生体医用画像分割のための二重エンコーダを用いたモデルを提案する。
畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。
提案手法は,各タスクにトランスフォーマーと非変換器を併用した最先端モデルと比較して,ボード全体のDiceスコアを高くする。
論文 参考訳(メタデータ) (2022-08-24T14:25:11Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Deep Convolutional Autoencoders as Generic Feature Extractors in
Seismological Applications [0.0]
地震学的な異なる用途のために,オートエンコーダを特徴抽出器として用いるという考え方を評価するためのテストを開発した。
これらのテストでは、大量の地震波形に基づいて、未完成または未完成のオートエンコーダを訓練する。
オートエンコーダの特徴抽出手法は,特定の条件下でのみ良好に機能する可能性がある。
論文 参考訳(メタデータ) (2021-10-22T14:22:07Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。