論文の概要: A benchmark of categorical encoders for binary classification
- arxiv url: http://arxiv.org/abs/2307.09191v2
- Date: Wed, 19 Jul 2023 16:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 10:57:07.875785
- Title: A benchmark of categorical encoders for binary classification
- Title(参考訳): 二項分類のための分類エンコーダのベンチマーク
- Authors: Federico Matteucci, Vadim Arzamasov, Klemens Boehm
- Abstract要約: 本論文は,これまでで最も包括的な分類エンコーダのベンチマークである。
さまざまな家系の32のエンコーダ構成の評価、36の実験要素の組み合わせ、50のデータセットを含む。
- 参考スコア(独自算出の注目度): 1.933681537640272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Categorical encoders transform categorical features into numerical
representations that are indispensable for a wide range of machine learning
models. Existing encoder benchmark studies lack generalizability because of
their limited choice of (1) encoders, (2) experimental factors, and (3)
datasets. Additionally, inconsistencies arise from the adoption of varying
aggregation strategies. This paper is the most comprehensive benchmark of
categorical encoders to date, including an extensive evaluation of 32
configurations of encoders from diverse families, with 36 combinations of
experimental factors, and on 50 datasets. The study shows the profound
influence of dataset selection, experimental factors, and aggregation
strategies on the benchmark's conclusions -- aspects disregarded in previous
encoder benchmarks.
- Abstract(参考訳): 分類エンコーダは、幅広い機械学習モデルに欠かせない分類的特徴を数値表現に変換する。
既存のエンコーダベンチマークでは,(1)エンコーダ,(2)実験因子,(3)データセットの選択が限定されているため,一般化性に欠ける。
さらに、さまざまな集約戦略を採用することで矛盾が生じる。
本論文は,これまで最も包括的なカテゴリエンコーダのベンチマークであり,多種多様な家族のエンコーダ構成32種,実験因子36種,データセット50種について広範な評価を行った。
この研究では、データセットの選択、実験的な要因、集約戦略がベンチマークの結論に深く影響していることが示されている。
関連論文リスト
- NeRCC: Nested-Regression Coded Computing for Resilient Distributed
Prediction Serving Systems [18.85527080950587]
NeRCCは、近似符号化コンピューティングのための一般的なストラグラー耐性フレームワークである。
NeRCCは、幅広いストラグラーにおける元の予測を正確に近似し、最先端の予測を最大23%上回った。
論文 参考訳(メタデータ) (2024-02-06T20:31:15Z) - Comparative Study on the Performance of Categorical Variable Encoders in
Classification and Regression Tasks [11.721062526796976]
本研究では,(1)入力に対するアフィン変換を暗黙的に実行するAITモデル,2)決定木に基づく木に基づくモデル,3)kNNなどの他のモデルに分類する。
理論的には、データから適切な重みを学習することで、他のエンコーダを模倣できるという意味で、ワンホットエンコーダがAITモデルにとって最良の選択であることを示す。
また、ターゲットエンコーダとその変種が木モデルに適したエンコーダである理由についても説明する。
論文 参考訳(メタデータ) (2024-01-18T02:21:53Z) - Encoding categorical data: Is there yet anything 'hotter' than one-hot
encoding? [0.0]
本研究は,OpenMLリポジトリの分類問題の包括的サンプルにおける符号化効果について検討する。
マルチクラスタスクでは、ワンホットエンコーディングとヘルマートコントラストがターゲットベースエンコーダよりも優れていた。
論文 参考訳(メタデータ) (2023-12-28T09:56:44Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - An Exploration of Encoder-Decoder Approaches to Multi-Label
Classification for Legal and Biomedical Text [20.100081284294973]
マルチラベル分類のための4つの手法を比較し,エンコーダのみに基づく2つの手法と,エンコーダ-デコーダに基づく2つの手法を比較した。
その結果、エンコーダ-デコーダ法はエンコーダのみの手法よりも優れており、より複雑なデータセットに有利であることがわかった。
論文 参考訳(メタデータ) (2023-05-09T17:13:53Z) - A Comparison of Modeling Preprocessing Techniques [0.0]
本稿では,構造化データに対する予測性能の観点から,各種データ処理手法の性能を比較した。
様々な構造、相互作用、複雑さの3つのデータセットが構築された。
特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。
論文 参考訳(メタデータ) (2023-02-23T14:11:08Z) - GTrans: Grouping and Fusing Transformer Layers for Neural Machine
Translation [107.2752114891855]
トランスフォーマー構造は、エンコーダとデコーダのネットワーク層によって積み重ねられ、ニューラルマシン翻訳において大きな発展を遂げる。
本稿では,エンコーダとデコーダの多層表現を異なるグループに柔軟に分割し,これらの特徴を融合して目的語を生成するグループトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-07-29T04:10:36Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - ESAD: End-to-end Deep Semi-supervised Anomaly Detection [85.81138474858197]
正規データと異常データの間のKL偏差を計測する新たな目的関数を提案する。
提案手法は,複数のベンチマークデータセットの最先端性能を著しく上回っている。
論文 参考訳(メタデータ) (2020-12-09T08:16:35Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Group Heterogeneity Assessment for Multilevel Models [68.95633278540274]
多くのデータセットは固有のマルチレベル構造を含む。
この構造を考慮に入れることは、そのようなデータ上で行われた統計分析の正確性と校正にとって重要である。
本稿では,データ内のグループ化変数のレベルの違いを効率的に評価するフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-06T12:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。