論文の概要: Precision-Recall Curve (PRC) Classification Trees
- arxiv url: http://arxiv.org/abs/2011.07640v1
- Date: Sun, 15 Nov 2020 22:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:06:06.248200
- Title: Precision-Recall Curve (PRC) Classification Trees
- Title(参考訳): 精度リコール曲線(prc)分類木
- Authors: Jiaju Miao, Wei Zhu
- Abstract要約: そこで本稿では,AUPRC (Precision-recall curve) に基づく木に基づく新しいアルゴリズムを提案する。
我々のアルゴリズムは「精度・リコール曲線分類木(Precision-Recall Curve classification tree)」と名付けられ、単に「PRC分類木(PRC classification tree)」と呼ばれる。
- 参考スコア(独自算出の注目度): 5.503321733964237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The classification of imbalanced data has presented a significant challenge
for most well-known classification algorithms that were often designed for data
with relatively balanced class distributions. Nevertheless skewed class
distribution is a common feature in real world problems. It is especially
prevalent in certain application domains with great need for machine learning
and better predictive analysis such as disease diagnosis, fraud detection,
bankruptcy prediction, and suspect identification. In this paper, we propose a
novel tree-based algorithm based on the area under the precision-recall curve
(AUPRC) for variable selection in the classification context. Our algorithm,
named as the "Precision-Recall Curve classification tree", or simply the "PRC
classification tree" modifies two crucial stages in tree building. The first
stage is to maximize the area under the precision-recall curve in node variable
selection. The second stage is to maximize the harmonic mean of recall and
precision (F-measure) for threshold selection. We found the proposed PRC
classification tree, and its subsequent extension, the PRC random forest, work
well especially for class-imbalanced data sets. We have demonstrated that our
methods outperform their classic counterparts, the usual CART and random forest
for both synthetic and real data. Furthermore, the ROC classification tree
proposed by our group previously has shown good performance in imbalanced data.
The combination of them, the PRC-ROC tree, also shows great promise in
identifying the minority class.
- Abstract(参考訳): 不均衡データの分類は、比較的バランスの取れたクラス分布を持つデータのためにしばしば設計されたほとんどのよく知られた分類アルゴリズムにとって大きな課題となった。
それでも、スキュートクラス分布は現実世界の問題では一般的な特徴である。
機械学習がとても必要であり、疾患の診断、不正検出、破産予測、被疑者識別などのより良い予測分析が必要とされる特定のアプリケーション領域では特に一般的である。
本稿では,分類文脈における変数選択のための精度リコール曲線(auprc)下の領域に基づく新しい木ベースアルゴリズムを提案する。
提案手法は"precision-recall curve classification tree"あるいは単に"prc classification tree"と呼ばれ,木構築における2つの重要な段階を修飾する。
第1段階は、ノード変数選択における精度再呼び出し曲線の下の領域を最大化することである。
第2段階は、閾値選択のためのリコールと精度の調和平均を最大化することである。
提案したPRC分類木とその拡張であるPRC乱林は,特にクラス不均衡データセットに対して有効であることがわかった。
我々は,本手法が,合成データと実データの両方において,従来のCARTやランダムフォレストよりも優れていることを示した。
また,本研究で提案するroc分類木は,従来,不均衡データの性能が良好であった。
PRC-ROCツリーと組み合わせることで、マイノリティクラスを特定することにも大きな期待が持てる。
関連論文リスト
- Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - A Mathematical Programming Approach to Optimal Classification Forests [1.0705399532413618]
本稿では,与えられた木を同時に構築する数学的最適化手法を提案する。
分類規則は、森林の樹木の中で最も頻繁に予測される分類をそれぞれの観察に割り当てることによって導かれる。
提案手法は,最先端木分類法と同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-18T20:33:08Z) - On multivariate randomized classification trees: $l_0$-based sparsity,
VC~dimension and decomposition methods [0.9346127431927981]
Blanquero et alで提案された非線形連続最適化の定式化について検討する。
我々はまず、$l_0$ノルムの凹凸近似に基づいて、そのような木をスパース化する代替手法を検討する。
より大規模なデータセットを用いた実験により,提案手法は精度を損なうことなく,学習時間を著しく短縮できることが示された。
論文 参考訳(メタデータ) (2021-12-09T22:49:08Z) - Optimal randomized classification trees [0.0]
分類と回帰木(英: Classification and Regression Trees、CART)は、現代の統計学と機械学習における既成の技術である。
CARTはgreedyプロシージャによって構築され、分割予測変数と関連するしきい値を逐次決定する。
この強欲なアプローチは、木を非常に高速に木に分類するが、その性質上、それらの分類精度は他の最先端の手順と競合しないかもしれない。
論文 参考訳(メタデータ) (2021-10-19T11:41:12Z) - Data-driven advice for interpreting local and global model predictions
in bioinformatics problems [17.685881417954782]
条件付き特徴コントリビューション(CFC)は、予測のテキストローカルでケースバイケースの説明を提供する。
両手法で計算した説明を, 公開されている164の分類問題に対して比較した。
ランダム林では,地域とグローバルのSHAP値とCFCスコアの相関関係が極めて高い。
論文 参考訳(メタデータ) (2021-08-13T12:41:39Z) - Making CNNs Interpretable by Building Dynamic Sequential Decision
Forests with Top-down Hierarchy Learning [62.82046926149371]
本稿では,CNN(Convlutional Neural Networks)を解釈可能なモデル転送方式を提案する。
我々は、CNNの上に微分可能な意思決定林を構築することで、これを実現する。
DDSDF(Dep Dynamic Sequential Decision Forest)と命名する。
論文 参考訳(メタデータ) (2021-06-05T07:41:18Z) - Predicting Classification Accuracy When Adding New Unobserved Classes [8.325327265120283]
そこで本研究では,より大規模で未観測のクラスに対して,期待する精度を推定するために,分類器の性能をどのように利用することができるかを検討する。
ニューラルネットワークに基づく頑健なアルゴリズム "CleaneX" を定式化し,任意のサイズのクラスに対して,そのような分類器の精度を推定する。
論文 参考訳(メタデータ) (2020-10-28T14:37:25Z) - Forest R-CNN: Large-Vocabulary Long-Tailed Object Detection and Instance
Segmentation [75.93960390191262]
我々は、オブジェクトカテゴリ間の関係に関する事前知識を利用して、きめ細かいクラスを粗い親クラスにクラスタリングする。
そこで本研究では,NMS再サンプリング法を提案する。
提案手法はフォレストR-CNNと呼ばれ,ほとんどのオブジェクト認識モデルに適用可能なプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2020-08-13T03:52:37Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。