論文の概要: Classification Trees for Imbalanced and Sparse Data: Surface-to-Volume
Regularization
- arxiv url: http://arxiv.org/abs/2004.12293v2
- Date: Mon, 14 Jun 2021 05:41:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 13:54:16.047455
- Title: Classification Trees for Imbalanced and Sparse Data: Surface-to-Volume
Regularization
- Title(参考訳): 不均衡データとスパースデータのための分類木:表面-体積正規化
- Authors: Yichen Zhu, Cheng Li and David B. Dunson
- Abstract要約: 分類アルゴリズムは、1つ以上のクラスが訓練データに制限がある場合、困難に直面します。
そこで我々は,SVR-Treeアルゴリズムのクラスを新たに獲得し,SVR(Surface-to-Volume Ratio)をペナライズする手法を提案する。
- 参考スコア(独自算出の注目度): 12.516439191372152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classification algorithms face difficulties when one or more classes have
limited training data. We are particularly interested in classification trees,
due to their interpretability and flexibility. When data are limited in one or
more of the classes, the estimated decision boundaries are often irregularly
shaped due to the limited sample size, leading to poor generalization error. We
propose a novel approach that penalizes the Surface-to-Volume Ratio (SVR) of
the decision set, obtaining a new class of SVR-Tree algorithms. We develop a
simple and computationally efficient implementation while proving estimation
consistency for SVR-Tree and rate of convergence for an idealized empirical
risk minimizer of SVR-Tree. SVR-Tree is compared with multiple algorithms that
are designed to deal with imbalance through real data applications.
- Abstract(参考訳): 1つ以上のクラスがトレーニングデータに制限がある場合、分類アルゴリズムは困難に直面する。
私たちは、その解釈性と柔軟性のために、特に分類木に興味を持っています。
データが1つ以上のクラスで制限された場合、推定された決定境界はしばしばサンプルサイズが制限されたため不規則に形成され、一般化誤差が低くなる。
そこで我々は,SVR-Treeアルゴリズムのクラスを新たに獲得し,SVR(Surface-to-Volume Ratio)をペナライズする手法を提案する。
我々は,SVR-Treeの予測整合性と,SVR-Treeの理想化された経験的リスク最小化器の収束率を証明しつつ,シンプルで効率的な実装を開発する。
SVR-Treeは、実際のデータアプリケーションを通しての不均衡を扱うように設計された複数のアルゴリズムと比較される。
関連論文リスト
- Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Smooth densities and generative modeling with unsupervised random
forests [1.433758865948252]
密度推定器の重要な応用は合成データ生成である。
パラメータ制約を伴わない任意の次元における滑らかな密度を推定するための,教師なしランダム森林に基づく新しい手法を提案する。
提案手法の整合性を証明し,既存の木質密度推定器に対する利点を実証する。
論文 参考訳(メタデータ) (2022-05-19T09:50:25Z) - Supervised Multivariate Learning with Simultaneous Feature Auto-grouping
and Dimension Reduction [7.093830786026851]
本稿では,クラスタ化低ランク学習フレームワークを提案する。
2つの合同行列正則化を課し、予測因子を構成する特徴を自動的にグループ化する。
低ランクなモデリングよりも解釈可能であり、変数選択における厳密な空間性仮定を緩和する。
論文 参考訳(メタデータ) (2021-12-17T20:11:20Z) - A cautionary tale on fitting decision trees to data from additive
models: generalization lower bounds [9.546094657606178]
本研究では,異なる回帰モデルに対する決定木の一般化性能について検討する。
これにより、アルゴリズムが新しいデータに一般化するために(あるいは作らない)仮定する帰納的バイアスが引き起こされる。
スパース加法モデルに適合する大規模な決定木アルゴリズムに対して、シャープな2乗誤差一般化を低い境界で証明する。
論文 参考訳(メタデータ) (2021-10-18T21:22:40Z) - Learning by Minimizing the Sum of Ranked Range [58.24935359348289]
本稿では,学習目標を定式化するための一般的なアプローチとして,ランキング範囲(SoRR)の和を紹介した。
ランク付き範囲は、実数の集合のソートされた値の連続的なシーケンスである。
我々は,SoRRフレームワークの最小化のための機械学習における2つの応用,すなわち,バイナリ分類のためのAoRR集約損失とマルチラベル/マルチクラス分類のためのTKML個人損失について検討する。
論文 参考訳(メタデータ) (2020-10-05T01:58:32Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Solving Long-tailed Recognition with Deep Realistic Taxonomic Classifier [68.38233199030908]
ロングテール認識は、現実世界のシナリオにおける自然な非一様分散データに取り組む。
モダンは人口密度の高いクラスではうまく機能するが、そのパフォーマンスはテールクラスでは著しく低下する。
Deep-RTCは、リアリズムと階層的予測を組み合わせたロングテール問題の新しい解法として提案されている。
論文 参考訳(メタデータ) (2020-07-20T05:57:42Z) - Clustering with Fast, Automated and Reproducible assessment applied to
longitudinal neural tracking [3.817161834189992]
C-FARは階層的クラスタリングアルゴリズムを同時に評価する新しい手法である。
提案アルゴリズムは,複数の階層的クラスタリング木を入力として,人間のフィードバックに対して戦略的にペアを問合せし,これらの木に推薦された木の中から最適なクラスタリングを出力する。
私たちのフラッグシップアプリケーションは、スパイクソートにおけるクラスタアグリゲーションステップであり、ニューロンに録音中の波形(スパイク)を割り当てるタスクです。
論文 参考訳(メタデータ) (2020-03-19T01:33:00Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。