論文の概要: Oblique Predictive Clustering Trees
- arxiv url: http://arxiv.org/abs/2007.13617v2
- Date: Thu, 5 Nov 2020 08:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 07:43:23.675284
- Title: Oblique Predictive Clustering Trees
- Title(参考訳): 斜め予測クラスタリングツリー
- Authors: Toma\v{z} Stepi\v{s}nik and Dragi Kocev
- Abstract要約: 予測クラスタリングツリー(PCT)は、構造化された出力予測を含む様々な予測モデリングタスクを解決するために使用できる。
本稿では,これらの制約に対処可能な斜めの予測クラスタリング木を提案する。
6つの予測モデルタスクのための60のベンチマークデータセットに対して提案手法を実験的に評価した。
- 参考スコア(独自算出の注目度): 6.317966126631351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive clustering trees (PCTs) are a well established generalization of
standard decision trees, which can be used to solve a variety of predictive
modeling tasks, including structured output prediction. Combining them into
ensembles yields state-of-the-art performance. Furthermore, the ensembles of
PCTs can be interpreted by calculating feature importance scores from the
learned models. However, their learning time scales poorly with the
dimensionality of the output space. This is often problematic, especially in
(hierarchical) multi-label classification, where the output can consist of
hundreds of potential labels. Also, learning of PCTs can not exploit the
sparsity of data to improve the computational efficiency, which is common in
both input (molecular fingerprints, bag of words representations) and output
spaces (in multi-label classification, examples are often labeled with only a
fraction of possible labels). In this paper, we propose oblique predictive
clustering trees, capable of addressing these limitations. We design and
implement two methods for learning oblique splits that contain linear
combinations of features in the tests, hence a split corresponds to an
arbitrary hyperplane in the input space. The methods are efficient for high
dimensional data and capable of exploiting sparse data. We experimentally
evaluate the proposed methods on 60 benchmark datasets for 6 predictive
modeling tasks. The results of the experiments show that oblique predictive
clustering trees achieve performance on-par with state-of-the-art methods and
are orders of magnitude faster than standard PCTs. We also show that meaningful
feature importance scores can be extracted from the models learned with the
proposed methods.
- Abstract(参考訳): 予測クラスタリング木 (pcts) は標準決定木のよく確立された一般化であり、構造化出力予測を含む様々な予測モデリングタスクを解決できる。
アンサンブルに組み合わせれば、最先端のパフォーマンスが得られる。
さらに,PCTのアンサンブルは,学習モデルから特徴重要度を計算することで解釈できる。
しかし、学習時間は出力空間の次元性に劣る。
これはしばしば問題となり、特に(階層的な)多重ラベル分類では、出力は数百の潜在的なラベルから成り得る。
また、pctの学習はデータのスパース性を利用して計算効率を向上させることはできず、入力(分子指紋、単語表現の袋)と出力空間(複数ラベルの分類では、サンプルは可能なラベルのほんの一部でラベル付けされることが多い)の両方に共通する。
本稿では,これらの制約に対処可能な斜め予測クラスタリング木を提案する。
実験で特徴の線形結合を含む斜め分割を学習するための2つの手法を設計・実装し,入力空間内の任意の超平面に対応する。
これらの方法は高次元データに対して効率的であり、スパースデータを利用することができる。
6つの予測モデルタスクのための60のベンチマークデータセットに対して提案手法を実験的に評価した。
実験の結果、斜めの予測クラスタリング木は最先端手法と同等の性能を示し、標準PCTよりも桁違いに高速であることがわかった。
また,提案手法で学習したモデルから有意義な特徴重要度を抽出できることを示した。
関連論文リスト
- A Closer Look at Deep Learning on Tabular Data [52.50778536274327]
タブラルデータは、機械学習の様々な領域で広く使われている。
Deep Neural Network(DNN)ベースの手法は、ツリーベースに匹敵する有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - A Unified Approach to Extract Interpretable Rules from Tree Ensembles via Integer Programming [2.1408617023874443]
木アンサンブル法は、教師付き分類と回帰タスクにおいて有効であることが知られている。
我々の研究は、訓練された木アンサンブルから最適化されたルールのリストを抽出することを目的としており、利用者に凝縮された解釈可能なモデルを提供する。
論文 参考訳(メタデータ) (2024-06-30T22:33:47Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Label Learning Method Based on Tensor Projection [82.51786483693206]
テンソルプロジェクション(LLMTP)に基づくラベル学習手法を提案する。
行列射影変換をテンソル射影に拡張し、ビュー間の空間構造情報を活用できるようにする。
さらに、テンソルのSchatten $p$-norm正規化を導入し、異なるビューのクラスタリングラベル行列を可能な限り一貫性を持たせる。
論文 参考訳(メタデータ) (2024-02-26T13:03:26Z) - Unboxing Tree Ensembles for interpretability: a hierarchical
visualization tool and a multivariate optimal re-built tree [0.34530027457862006]
我々は,木組モデルの解釈可能な表現を開発し,その振る舞いに関する貴重な洞察を提供する。
提案モデルは,木組決定関数を近似した浅い解釈可能な木を得るのに有効である。
論文 参考訳(メタデータ) (2023-02-15T10:43:31Z) - Semi-supervised Predictive Clustering Trees for (Hierarchical) Multi-label Classification [2.706328351174805]
本稿では,予測クラスタリング木の半教師付き学習に基づく階層型マルチラベル分類手法を提案する。
また,この手法をアンサンブル学習に拡張し,ランダムな森林アプローチに基づく手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T12:49:00Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Measure Inducing Classification and Regression Trees for Functional Data [0.0]
機能的データ分析の文脈における分類と回帰問題に対する木に基づくアルゴリズムを提案する。
これは、制約付き凸最適化により重み付き汎函数 L2$ 空間を学習することで達成される。
論文 参考訳(メタデータ) (2020-10-30T18:49:53Z) - Expectation propagation on the diluted Bayesian classifier [0.0]
本稿では,二項分類の文脈におけるスパース特徴選択の問題に対処する統計力学にインスパイアされた戦略を導入する。
予測伝搬(EP)として知られる計算スキームは、分類規則を学習する連続重みの知覚を訓練するために用いられる。
EPは、変数選択特性、推定精度、計算複雑性の点で頑健で競争力のあるアルゴリズムである。
論文 参考訳(メタデータ) (2020-09-20T23:59:44Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。