論文の概要: Naive Bayes Classifiers and One-hot Encoding of Categorical Variables
- arxiv url: http://arxiv.org/abs/2404.18190v1
- Date: Sun, 28 Apr 2024 14:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 17:33:28.865851
- Title: Naive Bayes Classifiers and One-hot Encoding of Categorical Variables
- Title(参考訳): カテゴリー変数のナイーブベイズ分類器とワンホット符号化
- Authors: Christopher K. I. Williams,
- Abstract要約: 本稿では,1ホット符号化による$K$値のカテゴリ変数を誤って$K$ビットとして符号化した結果について検討する。
これにより、正しい分類的Na"ive Bayes分類器ではなく、ベルヌーリス積 (PoB) の仮定が生まれる。
- 参考スコア(独自算出の注目度): 4.5053219193867395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the consequences of encoding a $K$-valued categorical variable incorrectly as $K$ bits via one-hot encoding, when using a Na\"{\i}ve Bayes classifier. This gives rise to a product-of-Bernoullis (PoB) assumption, rather than the correct categorical Na\"{\i}ve Bayes classifier. The differences between the two classifiers are analysed mathematically and experimentally. In our experiments using probability vectors drawn from a Dirichlet distribution, the two classifiers are found to agree on the maximum a posteriori class label for most cases, although the posterior probabilities are usually greater for the PoB case.
- Abstract(参考訳): 本稿では,Na\\\\{\i}ve Bayes 分類器を用いて,1ホット符号化による$K$ビットを誤って$K$ビットとして符号化した結果について検討する。
これにより、正しい分類的Na\"{\i}ve Bayes分類器ではなく、ベルヌーリス積 (PoB) の仮定が生まれる。
2つの分類器の違いは数学的および実験的に解析される。
ディリクレ分布から引き出された確率ベクトルを用いた実験では、2つの分類器がほとんどの場合において最大後続クラスラベルに一致するが、後続確率は通常PoBの場合より大きい。
関連論文リスト
- Generating Unbiased Pseudo-labels via a Theoretically Guaranteed
Chebyshev Constraint to Unify Semi-supervised Classification and Regression [57.17120203327993]
分類におけるしきい値と擬似ラベルプロセス(T2L)は、ラベルの品質を決定するために信頼性を使用する。
本質的には、レグレッションは高品質なラベルを生成するためにバイアスのない方法も必要である。
チェビシェフの不等式に基づく不偏ラベルを生成するための理論的に保証された制約を提案する。
論文 参考訳(メタデータ) (2023-11-03T08:39:35Z) - The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing [85.85160896547698]
ディープニューラルネットワークの現実的な応用は、ノイズの多い入力や敵攻撃に直面した場合、その不安定な予測によって妨げられる。
入力にノイズ注入を頼りに、認証された半径を持つ効率的な分類器を設計する方法を示す。
新たな認証手法により、ランダムな平滑化による事前学習モデルの使用が可能となり、ゼロショット方式で現在の認証半径を効果的に改善できる。
論文 参考訳(メタデータ) (2023-09-28T22:41:47Z) - Revisiting Discriminative vs. Generative Classifiers: Theory and
Implications [37.98169487351508]
本論文はベイズの統計的効率に着想を得たものである。
マルチクラス$mathcalH$-consistency bound frameworkと明示的なロジスティック損失境界を示す。
様々な事前訓練されたディープビジョンモデルの実験は、データの数が増加するにつれて、ナイーブベイズは常に速く収束することを示している。
論文 参考訳(メタデータ) (2023-02-05T08:30:42Z) - Deriving discriminative classifiers from generative models [6.939768185086753]
生成モデルから誘導される生成的分類器は、同じモデルから判別的に計算できることを示す。
自然言語処理(NLP)フレームワークにおいて,分類器を識別する新たな手法が注目されている。
論文 参考訳(メタデータ) (2022-01-03T19:18:25Z) - Classification Under Ambiguity: When Is Average-K Better Than Top-K? [1.7156052308952854]
トップ$K$分類と呼ばれる一般的な選択肢は、ある番号の$K$を選択し、最高スコアの$K$ラベルを返すことである。
本稿では,平均$K$分類が固定上位$K$分類よりも低い誤差率が得られる場合の曖昧性プロファイルを公式に特徴付ける。
論文 参考訳(メタデータ) (2021-12-16T12:58:07Z) - On the rate of convergence of a classifier based on a Transformer
encoder [55.41148606254641]
最適誤分類確率に対する分類器の誤分類確率の収束率を分析する。
この分類器は,アポテリオリ確率が適切な階層的構成モデルを満たす場合,次元性の呪いを回避することができる。
論文 参考訳(メタデータ) (2021-11-29T14:58:29Z) - When in Doubt: Improving Classification Performance with Alternating
Normalization [57.39356691967766]
分類のための非パラメトリック後処理ステップである交互正規化(CAN)を用いた分類を導入する。
CANは、予測されたクラス確率分布を再調整することで、挑戦的な例の分類精度を向上させる。
多様な分類課題にまたがってその効果を実証的に示す。
論文 参考訳(メタデータ) (2021-09-28T02:55:42Z) - Binary classification with ambiguous training data [69.50862982117127]
教師付き学習では、ドメインの専門家でさえラベル付けが難しい曖昧な(A)サンプルに直面します。
この問題は、ラベルなしサンプルが必ずしも難しいサンプルではないため、半教師付き学習とは大きく異なる。
論文 参考訳(メタデータ) (2020-11-05T00:53:58Z) - Classifier-independent Lower-Bounds for Adversarial Robustness [13.247278149124757]
理論的には、テストタイムの逆数と雑音の分類例に対するロバスト性の限界を解析する。
最適輸送理論を用いて、与えられた分類問題に対して分類器ができるベイズ最適誤差の変分式を導出する。
一般的な距離ベース攻撃の場合,ベイズ最適誤差に対して明らかな下限を導出する。
論文 参考訳(メタデータ) (2020-06-17T16:46:39Z) - Quantifying the Uncertainty of Precision Estimates for Rule based Text
Classifiers [0.0]
キーサブストリングの存在と欠如を利用して分類決定を行うルールベースの分類器は、それらの精度の不確かさを定量化する自然なメカニズムを持つ。
バイナリ分類器にとって重要な洞察は、文書によって誘導される部分弦集合の分割をベルヌーイ確率変数として扱うことである。
このアプローチの実用性は、ベンチマーク問題で実証されている。
論文 参考訳(メタデータ) (2020-05-19T03:51:47Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。