論文の概要: A Max-relevance-min-divergence Criterion for Data Discretization with
Applications on Naive Bayes
- arxiv url: http://arxiv.org/abs/2209.10095v2
- Date: Wed, 5 Apr 2023 02:30:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 16:15:59.833448
- Title: A Max-relevance-min-divergence Criterion for Data Discretization with
Applications on Naive Bayes
- Title(参考訳): データの離散化のための最大関連分断基準とナイーブベイへの応用
- Authors: Shihe Wang, Jianfeng Ren, Ruibin Bai, Yuan Yao, Xudong Jiang
- Abstract要約: 多くの分類モデルにおいて、データはその分布をより正確に推定するために離散化される。
本稿では,識別データの識別情報と一般化能力の両方を最大化する,MDmD(Max-Dependency-Min-Divergence)基準を提案する。
本稿では,各属性を別々に識別し,識別されたデータの識別情報と一般化能力を同時に最大化することにより,より実用的なMRMD(Max-Relevance-Min-Divergence)離散化手法を提案する。
- 参考スコア(独自算出の注目度): 22.079025650097932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many classification models, data is discretized to better estimate its
distribution. Existing discretization methods often target at maximizing the
discriminant power of discretized data, while overlooking the fact that the
primary target of data discretization in classification is to improve the
generalization performance. As a result, the data tend to be over-split into
many small bins since the data without discretization retain the maximal
discriminant information. Thus, we propose a Max-Dependency-Min-Divergence
(MDmD) criterion that maximizes both the discriminant information and
generalization ability of the discretized data. More specifically, the
Max-Dependency criterion maximizes the statistical dependency between the
discretized data and the classification variable while the Min-Divergence
criterion explicitly minimizes the JS-divergence between the training data and
the validation data for a given discretization scheme. The proposed MDmD
criterion is technically appealing, but it is difficult to reliably estimate
the high-order joint distributions of attributes and the classification
variable. We hence further propose a more practical solution,
Max-Relevance-Min-Divergence (MRmD) discretization scheme, where each attribute
is discretized separately, by simultaneously maximizing the discriminant
information and the generalization ability of the discretized data. The
proposed MRmD is compared with the state-of-the-art discretization algorithms
under the naive Bayes classification framework on 45 machine-learning benchmark
datasets. It significantly outperforms all the compared methods on most of the
datasets.
- Abstract(参考訳): 多くの分類モデルでは、データはより正確に分布を推定するために離散化される。
既存の離散化手法では、識別データの識別能力の最大化を目標とし、分類におけるデータ離散化の主目的が一般化性能の向上であるという事実を見越すことが多い。
その結果、識別されていないデータが最大判別情報を保持するため、データは多くの小さなビンにオーバースプライトされる傾向がある。
そこで本研究では,識別データの識別情報と一般化能力の両方を最大化する,MDmD(Max-Dependency-Min-Divergence)基準を提案する。
より具体的には、最大依存性基準は離散化データと分類変数との統計的依存性を最大化し、min-divergence基準はトレーニングデータと所定の離散化スキームの検証データとの間のjs-divergenceを明示的に最小化する。
提案するMDmD基準は技術的に魅力的であるが,属性と分類変数の高次結合分布を確実に推定することは困難である。
そこで我々は,離散化データの識別情報と一般化能力を同時に最大化することにより,各属性を離散化するより実用的な解であるmax-relevance-min-divergence(mrmd)離散化スキームを提案する。
提案したMRmDは,45の機械学習ベンチマークデータセット上のベイズ分類フレームワークに基づく最先端の離散化アルゴリズムと比較される。
ほとんどのデータセットで比較したメソッドよりも大幅に優れています。
関連論文リスト
- Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - Anomaly Detection Under Uncertainty Using Distributionally Robust
Optimization Approach [0.9217021281095907]
異常検出は、大多数のパターンに従わないデータポイントを見つける問題として定義される。
1クラスのサポートベクトルマシン(SVM)メソッドは、通常のデータポイントと異常を区別するための決定境界を見つけることを目的としている。
誤分類の確率が低い分布的に頑健な確率制約モデルを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:13:22Z) - Characterizing the Optimal 0-1 Loss for Multi-class Classification with
a Test-time Attacker [57.49330031751386]
我々は,任意の離散データセット上の複数クラス分類器に対するテスト時間攻撃の存在下での損失に対する情報理論的下位境界を求める。
本稿では,データと敵対的制約から競合ハイパーグラフを構築する際に発生する最適0-1損失を求めるための一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-21T15:17:13Z) - Dimension Independent Data Sets Approximation and Applications to
Classification [0.0]
我々は、近似・補間理論の古典的カーネル法を、非常に具体的な文脈で再検討する。
データ信号と呼ばれる特別な関数は、任意のデータセットに対して定義され、教師付き分類問題を簡潔に解くために使用される。
論文 参考訳(メタデータ) (2022-08-29T17:32:55Z) - A Semi-Supervised Adaptive Discriminative Discretization Method
Improving Discrimination Power of Regularized Naive Bayes [0.48342038441006785]
半教師付き適応型ベイズ識別フレームワークを提案する。
ラベル付きデータとラベルなしデータの両方を擬似ラベル付け技術で利用することで、データ分布をより正確に推定できる。
また,適応的識別識別方式を用いて,識別時の情報損失を著しく低減する手法を提案する。
論文 参考訳(メタデータ) (2021-11-22T04:36:40Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - The Power of Log-Sum-Exp: Sequential Density Ratio Matrix Estimation for
Speed-Accuracy Optimization [0.0]
本稿では,時系列のマルチクラス分類モデルを提案する。
早期分類のためのアーキテクチャ MSPRT-TANDEM は、4つのデータセットのベースラインモデルよりも統計的に有意に優れている。
論文 参考訳(メタデータ) (2021-05-28T07:21:58Z) - A Unified Joint Maximum Mean Discrepancy for Domain Adaptation [73.44809425486767]
本論文は,最適化が容易なjmmdの統一形式を理論的に導出する。
統合JMMDから、JMMDは分類に有利な特徴ラベル依存を低下させることを示す。
本稿では,その依存を促進する新たなmmd行列を提案し,ラベル分布シフトにロバストな新しいラベルカーネルを考案する。
論文 参考訳(メタデータ) (2021-01-25T09:46:14Z) - Autoregressive Score Matching [113.4502004812927]
自動回帰条件スコアモデル(AR-CSM)を提案する。
AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。
本研究では,合成データに対する密度推定,画像生成,画像復調,暗黙エンコーダを用いた潜在変数モデルの訓練に応用できることを示す。
論文 参考訳(メタデータ) (2020-10-24T07:01:24Z) - A Compressive Classification Framework for High-Dimensional Data [12.284934135116515]
本稿では,データ次元がサンプルサイズよりもかなり高い設定のための圧縮分類フレームワークを提案する。
提案手法は線形判別分析に基づく正規化判別分析(CRDA)と呼ばれる。
識別規則における強しきい値化を促進するジョイントスパーシティを用いることで、重要な特徴を選択できる。
論文 参考訳(メタデータ) (2020-05-09T06:55:00Z) - Towards Discriminability and Diversity: Batch Nuclear-norm Maximization
under Label Insufficient Situations [154.51144248210338]
Batch Nuclear-norm Maximization (BNM) は、学習シナリオのラベルが不十分な場合の学習を促進するために提案されている。
BNMはライバルより優れており、既存のよく知られた手法でうまく機能する。
論文 参考訳(メタデータ) (2020-03-27T05:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。