論文の概要: Distribution and volume based scoring for Isolation Forests
- arxiv url: http://arxiv.org/abs/2309.11450v1
- Date: Wed, 20 Sep 2023 16:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 12:26:35.968625
- Title: Distribution and volume based scoring for Isolation Forests
- Title(参考訳): 孤立林における分布とボリュームベース採点
- Authors: Hichem Dhouib, Alissa Wilms, Paul Boes
- Abstract要約: 我々は,異常・異常検出のための孤立林法に2つの貢献をしている。
1つ目は、ランダムツリー推定器間でスコアを集約するために使用されるスコア関数を情報理論的に動機づけた一般化である。
二つ目は、個別の樹木推定器のレベルでの代替スコアリング関数であり、孤立林の深度に基づくスコアリングを、孤立木の葉ノードに関連付けられたハイパーボリュームに基づくものに置き換える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We make two contributions to the Isolation Forest method for anomaly and
outlier detection. The first contribution is an information-theoretically
motivated generalisation of the score function that is used to aggregate the
scores across random tree estimators. This generalisation allows one to take
into account not just the ensemble average across trees but instead the whole
distribution. The second contribution is an alternative scoring function at the
level of the individual tree estimator, in which we replace the depth-based
scoring of the Isolation Forest with one based on hyper-volumes associated to
an isolation tree's leaf nodes.
We motivate the use of both of these methods on generated data and also
evaluate them on 34 datasets from the recent and exhaustive ``ADBench''
benchmark, finding significant improvement over the standard isolation forest
for both variants on some datasets and improvement on average across all
datasets for one of the two variants. The code to reproduce our results is made
available as part of the submission.
- Abstract(参考訳): 我々は, 孤立林法における異常検出と異常検出に2つの貢献をした。
最初の貢献は、ランダムツリー推定器間でスコアを集約するために使用されるスコア関数の情報理論的に動機付けられた一般化である。
この一般化により、木全体のアンサンブル平均だけでなく、全体の分布も考慮できる。
第2の寄与は、個々の樹木推定器のレベルでの代替スコアリング機能であり、孤立林の深度に基づくスコアリングを、孤立木の葉ノードに関連付けられたハイパーボリュームに置き換えるものである。
我々は、これらの2つのメソッドを生成データに使用する動機付けを行い、最近かつ徹底した `ADBench' ベンチマークから 34 個のデータセットで評価し、いくつかのデータセットにおける両方の変種に対する標準隔離林の改善と、2つの変種のうちの1つのデータセットにおける平均的な改善を見出した。
結果を再現するためのコードは、提出の一部として利用可能です。
関連論文リスト
- Heterogeneous Random Forest [2.0646127669654835]
不均一ランダムフォレスト(HRF)は、木多様性を有意義な方法で向上させるように設計されている。
HRFは、ほとんどのデータセットの精度において、他のアンサンブル手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-10-24T09:18:55Z) - Ensembles of Probabilistic Regression Trees [46.53457774230618]
木に基づくアンサンブル法は多くの応用や研究で回帰問題に成功している。
本研究では,確率分布に関する各領域の観察を割り当てることで,目的関数のスムーズな近似を提供する確率回帰木のアンサンブルバージョンについて検討する。
論文 参考訳(メタデータ) (2024-06-20T06:51:51Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - Individualized and Global Feature Attributions for Gradient Boosted
Trees in the Presence of $\ell_2$ Regularization [0.0]
本稿では,プレデコン(PreDecomp)を提案する。プレデコン(PreDecomp,PreDecomp,PreDecomp)は,正規化を$ell$で訓練した場合に,増木に対する新規な個別化特徴属性である。
また、各ツリーのアウトサンプルデータに個々の特徴属性とラベルの内積で定義される、偏りのないグローバルな特徴属性のファミリーであるTreeInnerを提案する。
論文 参考訳(メタデータ) (2022-11-08T17:56:22Z) - Data-driven advice for interpreting local and global model predictions
in bioinformatics problems [17.685881417954782]
条件付き特徴コントリビューション(CFC)は、予測のテキストローカルでケースバイケースの説明を提供する。
両手法で計算した説明を, 公開されている164の分類問題に対して比較した。
ランダム林では,地域とグローバルのSHAP値とCFCスコアの相関関係が極めて高い。
論文 参考訳(メタデータ) (2021-08-13T12:41:39Z) - Eigen Analysis of Self-Attention and its Reconstruction from Partial
Computation [58.80806716024701]
ドット積に基づく自己注意を用いて計算した注意点のグローバルな構造について検討する。
注意点の変動の大部分は低次元固有空間にあることがわかった。
トークンペアの部分的な部分集合に対してのみスコアを計算し、それを用いて残りのペアのスコアを推定する。
論文 参考訳(メタデータ) (2021-06-16T14:38:42Z) - Optimal trees selection for classification via out-of-bag assessment and
sub-bagging [0.0]
一般に、木ベースの機械学習手法の予測性能は、トレーニングデータのサイズが大きくなるにつれて低下して改善される。
本研究では,本手法が内部検証によるトレーニング観測から学習できない最適樹木アンサンブル(OTE)について検討する。
そこで本研究では,OTEが内部検証における学習観察の損失を補うため,修正木選択法を提案する。
論文 参考訳(メタデータ) (2020-12-30T19:44:11Z) - JSRT: James-Stein Regression Tree [55.2059664267247]
回帰木(RT)は機械学習やデータマイニングのコミュニティで広く使われている。
実際、RTの性能は、木構築/予測段階における個々のノードからのサンプルの局所的な平均に大きく依存している。
我々は,異なるノードからのグローバル情報を考慮した新しい回帰木であるJames-Stein Regression Tree (JSRT)を提案する。
論文 参考訳(メタデータ) (2020-10-18T16:28:49Z) - A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。
本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-02-25T18:53:25Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。