論文の概要: On Clustering Categories of Categorical Predictors in Generalized Linear
Models
- arxiv url: http://arxiv.org/abs/2110.10059v1
- Date: Tue, 19 Oct 2021 15:36:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 13:11:58.556727
- Title: On Clustering Categories of Categorical Predictors in Generalized Linear
Models
- Title(参考訳): 一般化線形モデルにおけるカテゴリー予測子のクラスタリングカテゴリについて
- Authors: Emilio Carrizosa and Marcela Galvis Restrepo and Dolores Romero
Morales
- Abstract要約: 本稿では,分類予測器の存在下での一般化線形モデルの複雑性を低減する手法を提案する。
各カテゴリがダミー変数で表される従来のワンホット符号化は、無駄で解釈が難しく、過度に適合する傾向がある。
本稿では,カテゴリをクラスタリングすることでカテゴリ予測器の表現を小さくすることで,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a method to reduce the complexity of Generalized Linear Models in
the presence of categorical predictors. The traditional one-hot encoding, where
each category is represented by a dummy variable, can be wasteful, difficult to
interpret, and prone to overfitting, especially when dealing with
high-cardinality categorical predictors. This paper addresses these challenges
by finding a reduced representation of the categorical predictors by clustering
their categories. This is done through a numerical method which aims to
preserve (or even, improve) accuracy, while reducing the number of coefficients
to be estimated for the categorical predictors. Thanks to its design, we are
able to derive a proximity measure between categories of a categorical
predictor that can be easily visualized. We illustrate the performance of our
approach in real-world classification and count-data datasets where we see that
clustering the categorical predictors reduces complexity substantially without
harming accuracy.
- Abstract(参考訳): 本稿では,分類予測器の存在下での一般化線形モデルの複雑性を低減する手法を提案する。
各カテゴリがダミー変数で表される伝統的なワンホットエンコーディングは、特に高カーディナリティのカテゴリー予測器を扱う場合、無駄で、解釈が難しく、オーバーフィットしがちである。
本稿では,カテゴリをクラスタリングすることでカテゴリ予測器の表現を小さくすることで,これらの課題に対処する。
これは、カテゴリー予測器で推定される係数の数を減らしながら、精度を保存(あるいは改善)することを目的とした数値的な方法によって行われる。
その設計により、分類的予測器のカテゴリ間の近接測度を導出することができ、容易に視覚化できる。
実世界の分類とカウントデータデータセットでは,分類予測器をクラスタ化することで,精度を損なうことなく,複雑性を大幅に低減できることを示す。
関連論文リスト
- Boosting of Classification Models with Human-in-the-Loop Computational Visual Knowledge Discovery [2.9465623430708905]
本稿では, クラス重複領域のすべてのケースに対して, 誤分類事例のみに焦点をあてることから, クラス重複領域への移動促進手法を提案する。
分割と分類のプロセスは、ケースを単純で複雑なものに分割し、計算分析とデータの視覚化を通じて個別に分類する。
純粋なクラス領域と重複クラス領域を見つけた後、純粋な領域における単純なケースを分類し、命題論理や一階論理などの決定規則のような解釈可能なサブモデルを生成する。
論文 参考訳(メタデータ) (2025-02-10T21:09:19Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - A Statistical Model for Predicting Generalization in Few-Shot
Classification [6.158812834002346]
一般化誤差を予測するために,特徴分布のガウスモデルを導入する。
提案手法は, 相互検証戦略の離脱など, 代替案よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-13T10:21:15Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Generalization Error Bounds for Multiclass Sparse Linear Classifiers [7.360807642941714]
スパース多項ロジスティック回帰による高次元多クラス分類を考察する。
本稿では,ペナル化最大可能性に基づく計算可能な特徴選択手法を提案する。
特に、グローバル・スパシティ、ダブル・行ワイド・スパシティ、ロー・ランク・スパシティについて検討する。
論文 参考訳(メタデータ) (2022-04-13T09:25:03Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - DropLoss for Long-Tail Instance Segmentation [56.162929199998075]
珍しいカテゴリーと頻繁なカテゴリーのアンバランスを補う新しい適応損失であるDropLossを開発しています。
LVISデータセットでは,レア,一般的,頻繁なカテゴリにまたがる最先端のmAPを示す。
論文 参考訳(メタデータ) (2021-04-13T17:59:22Z) - Asymptotic Supervised Predictive Classifiers under Partition
Exchangeability [0.0]
結果は、無限のトレーニングまたはテストデータの下でこれらの分類器の収束を示しています。
これは実用上重要な結果であり、十分な量のデータが存在する場合には、より単純な辺縁分類器を計算的に高価な同時処理に置き換えることができる。
論文 参考訳(メタデータ) (2021-01-26T17:17:40Z) - Theoretical Insights Into Multiclass Classification: A High-dimensional
Asymptotic View [82.80085730891126]
線形多クラス分類の最初の現代的精度解析を行う。
分析の結果,分類精度は分布に依存していることがわかった。
得られた洞察は、他の分類アルゴリズムの正確な理解の道を開くかもしれない。
論文 参考訳(メタデータ) (2020-11-16T05:17:29Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - Deep Hierarchical Classification for Category Prediction in E-commerce
System [16.6932395109085]
電子商取引システムでは、カテゴリ予測は与えられたテキストのカテゴリを自動的に予測する。
ニューラルネットワークにマルチスケール階層情報を組み込んだDeep Hierarchical Classificationフレームワークを提案する。
また、階層的予測損失を罰する新たな複合損失関数も定義する。
論文 参考訳(メタデータ) (2020-05-14T02:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。