論文の概要: Optimal trees selection for classification via out-of-bag assessment and
sub-bagging
- arxiv url: http://arxiv.org/abs/2012.15301v1
- Date: Wed, 30 Dec 2020 19:44:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 10:36:00.053304
- Title: Optimal trees selection for classification via out-of-bag assessment and
sub-bagging
- Title(参考訳): バッグ外評価とサブバッキングによる分類のための最適木選定法
- Authors: Zardad Khan, Naz Gul, Nosheen Faiz, Asma Gul, Werner Adler, Berthold
Lausen
- Abstract要約: 一般に、木ベースの機械学習手法の予測性能は、トレーニングデータのサイズが大きくなるにつれて低下して改善される。
本研究では,本手法が内部検証によるトレーニング観測から学習できない最適樹木アンサンブル(OTE)について検討する。
そこで本研究では,OTEが内部検証における学習観察の損失を補うため,修正木選択法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effect of training data size on machine learning methods has been well
investigated over the past two decades. The predictive performance of tree
based machine learning methods, in general, improves with a decreasing rate as
the size of training data increases. We investigate this in optimal trees
ensemble (OTE) where the method fails to learn from some of the training
observations due to internal validation. Modified tree selection methods are
thus proposed for OTE to cater for the loss of training observations in
internal validation. In the first method, corresponding out-of-bag (OOB)
observations are used in both individual and collective performance assessment
for each tree. Trees are ranked based on their individual performance on the
OOB observations. A certain number of top ranked trees is selected and starting
from the most accurate tree, subsequent trees are added one by one and their
impact is recorded by using the OOB observations left out from the bootstrap
sample taken for the tree being added. A tree is selected if it improves
predictive accuracy of the ensemble. In the second approach, trees are grown on
random subsets, taken without replacement-known as sub-bagging, of the training
data instead of bootstrap samples (taken with replacement). The remaining
observations from each sample are used in both individual and collective
assessments for each corresponding tree similar to the first method. Analysis
on 21 benchmark datasets and simulations studies show improved performance of
the modified methods in comparison to OTE and other state-of-the-art methods.
- Abstract(参考訳): 機械学習手法に対するトレーニングデータサイズの影響は過去20年間にわたってよく研究されてきた。
一般に、木ベースの機械学習手法の予測性能は、トレーニングデータのサイズが大きくなるにつれて低下して改善される。
本研究では,本手法が内部検証によるトレーニング観測から学習できない最適樹木アンサンブル(OTE)について検討する。
そこで,OTEは内部検証におけるトレーニング観察の損失に対応するため,修正木選択法を提案する。
第1の方法では、各木に対する個別および集団のパフォーマンス評価において、対応するOOB(out-of-bag)観測を使用する。
木は、OOB観測に基づいて個々のパフォーマンスに基づいてランク付けされる。
特定の上位木を選定し、最も正確な木から開始し、その後に1つずつ木を付加し、その木を付加するために採取したブートストラップ標本から残したOOB観測を用いて、その影響を記録する。
アンサンブルの予測精度を向上させると木が選択される。
第2のアプローチでは、木はランダムなサブセット上で成長し、ブートストラップサンプルではなく、トレーニングデータのサブバッギング(sub-bagging)として知られています。
各試料からの残りの観察は、第1法と同様に、対応する木々の個体および集合的評価に使用される。
21個のベンチマークデータセットの解析とシミュレーション研究により,OTEや他の最先端手法と比較して改良された手法の性能が向上した。
関連論文リスト
- Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - Distribution and volume based scoring for Isolation Forests [0.0]
我々は,異常・異常検出のための孤立林法に2つの貢献をしている。
1つ目は、ランダムツリー推定器間でスコアを集約するために使用されるスコア関数を情報理論的に動機づけた一般化である。
二つ目は、個別の樹木推定器のレベルでの代替スコアリング関数であり、孤立林の深度に基づくスコアリングを、孤立木の葉ノードに関連付けられたハイパーボリュームに基づくものに置き換える。
論文 参考訳(メタデータ) (2023-09-20T16:27:10Z) - Prediction Algorithms Achieving Bayesian Decision Theoretical Optimality
Based on Decision Trees as Data Observation Processes [1.2774526936067927]
本稿では,データの背後にあるデータ観測過程を表現するために木を用いる。
我々は、過度な適合に対して頑健な統計的に最適な予測を導出する。
これをマルコフ連鎖モンテカルロ法により解き、ステップサイズは木の後方分布に応じて適応的に調整される。
論文 参考訳(メタデータ) (2023-06-12T12:14:57Z) - Hierarchical clustering with dot products recovers hidden tree structure [53.68551192799585]
本稿では,階層構造の回復に着目した凝集クラスタリングアルゴリズムの新しい視点を提案する。
クラスタを最大平均点積でマージし、例えば最小距離やクラスタ内分散でマージしないような、標準的なアルゴリズムの単純な変種を推奨する。
このアルゴリズムにより得られた木は、汎用確率的グラフィカルモデルの下で、データ中の生成的階層構造をボナフェイド推定することを示した。
論文 参考訳(メタデータ) (2023-05-24T11:05:12Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - RLET: A Reinforcement Learning Based Approach for Explainable QA with
Entailment Trees [47.745218107037786]
本稿では,強化学習に基づくEntailment Tree生成フレームワークであるRLETを提案する。
RLETは文の選択と推論生成モジュールによる単一ステップ推論を反復的に行う。
EntailmentBankデータセットの3つの設定の実験では、RLフレームワークを使用することの強みが示されている。
論文 参考訳(メタデータ) (2022-10-31T06:45:05Z) - Social Interpretable Tree for Pedestrian Trajectory Prediction [75.81745697967608]
本稿では,このマルチモーダル予測課題に対処するため,SIT(Social Interpretable Tree)と呼ばれる木に基づく手法を提案する。
木の根から葉までの経路は、個々の将来の軌跡を表す。
ETH-UCYとStanford Droneのデータセットによる実験結果からは,手作り木にもかかわらず,我々の手法が最先端の手法の性能に適合または超えることを示した。
論文 参考訳(メタデータ) (2022-05-26T12:18:44Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z) - MurTree: Optimal Classification Trees via Dynamic Programming and Search [61.817059565926336]
動的プログラミングと探索に基づいて最適な分類木を学習するための新しいアルゴリズムを提案する。
当社のアプローチでは,最先端技術が必要とする時間のごく一部しか使用せず,数万のインスタンスでデータセットを処理することが可能です。
論文 参考訳(メタデータ) (2020-07-24T17:06:55Z) - Optimal survival trees ensemble [0.0]
近年の研究では、分類と回帰問題のためのアンサンブル内での個人的または集団的パフォーマンスに基づいて、正確で多様な木を選択するアプローチが採用されている。
この研究は、これらの調査のきっかけに続き、最適な生存樹の森を成長させる可能性について考察する。
予測性能の向上に加えて,本手法はアンサンブル内の生存木数を削減する。
論文 参考訳(メタデータ) (2020-05-18T19:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。