論文の概要: Geometry- and Accuracy-Preserving Random Forest Proximities
- arxiv url: http://arxiv.org/abs/2201.12682v1
- Date: Sat, 29 Jan 2022 23:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-02 12:50:03.973666
- Title: Geometry- and Accuracy-Preserving Random Forest Proximities
- Title(参考訳): 地形と正確性 -ランダム森林の確率保存-
- Authors: Jake S. Rhodes, Adele Cutler, Kevin R. Moon
- Abstract要約: 我々はランダムフォレスト-ジオメトリー(Random Forest-Geometry- and Accuracy-Preserving Proximities:RF-GAP)と呼ばれるランダムフォレスト確率の新しい定義を導入する。
RF-GAPは乱林予測と正確に一致していることが証明された。
この幾何表現の改善は、データ計算などのタスクにおいて従来のランダムな森の確率よりも優れており、学習したデータ幾何と整合した外れ値の検出と可視化結果を提供する。
- 参考スコア(独自算出の注目度): 3.265773263570237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Random forests are considered one of the best out-of-the-box classification
and regression algorithms due to their high level of predictive performance
with relatively little tuning. Pairwise proximities can be computed from a
trained random forest which measure the similarity between data points relative
to the supervised task. Random forest proximities have been used in many
applications including the identification of variable importance, data
imputation, outlier detection, and data visualization. However, existing
definitions of random forest proximities do not accurately reflect the data
geometry learned by the random forest. In this paper, we introduce a novel
definition of random forest proximities called Random Forest-Geometry- and
Accuracy-Preserving proximities (RF-GAP). We prove that the proximity-weighted
sum (regression) or majority vote (classification) using RF-GAP exactly match
the out-of-bag random forest prediction, thus capturing the data geometry
learned by the random forest. We empirically show that this improved geometric
representation outperforms traditional random forest proximities in tasks such
as data imputation and provides outlier detection and visualization results
consistent with the learned data geometry.
- Abstract(参考訳): ランダムフォレストは、比較的チューニングが少ない高いレベルの予測性能のため、最適の分類と回帰アルゴリズムの1つであると考えられている。
教師付きタスクに対するデータポイント間の類似度を測定する訓練されたランダムフォレストからペアワイズ確率を計算することができる。
ランダムフォレスト確率は、変数の重要性の識別、データ計算、外乱検出、データの可視化など、多くのアプリケーションで使われている。
しかし、既存の無作為林の定義は、無作為林が学習したデータ幾何学を正確に反映していない。
本稿では,ランダムフォレスト・ジオメトリー (Random Forest-Geometry- and Accuracy-Preserving Proximities,RF-GAP) と呼ばれる,ランダムな森林確率の新たな定義を提案する。
本研究では,RF-GAPを用いた近接重み付き和(回帰)や多数決(分類)が乱林予測と正確に一致していることを証明する。
この改良された幾何表現は、データインプテーションなどのタスクにおける従来のランダムフォレストプロキシよりも優れており、学習したデータジオメトリと整合した異常検出と可視化の結果を提供する。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Global Censored Quantile Random Forest [2.8413279736755017]
我々は,正しい検閲対象データに対する条件付き量子化過程を予測するために,GCQRF(Global Censored Quantile Random Forest)を提案する。
我々は、無限の森林を仮定することなく予測過程の変動を定量化し、その弱収束を確立する。
提案手法の予測精度は,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T04:05:01Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Neuroevolution-based Classifiers for Deforestation Detection in Tropical
Forests [62.997667081978825]
森林破壊や荒廃により、毎年何百万ヘクタールもの熱帯林が失われる。
監視・森林破壊検知プログラムは、犯罪者の予防・処罰のための公共政策に加えて、使用されている。
本稿では,熱帯林の森林破壊検出作業におけるニューロ進化技術(NEAT)に基づくパターン分類器の利用を提案する。
論文 参考訳(メタデータ) (2022-08-23T16:04:12Z) - Random Similarity Forests [2.3204178451683264]
本稿では,任意のデータ型の特徴を持つデータセットを,各特徴の特徴を保ちながら扱える分類法を提案する。
提案したアルゴリズムはランダム類似林(Random similarity Forest)と呼ばれ、複数のドメイン固有の距離測定を用いて、ランダム類似林(Random Forests)の予測性能と類似林(Random similarity Forests)の柔軟性を組み合わせている。
ランダム類似林はRandom Forestsの数値データと同等であり、複雑なデータドメインや混合データドメインのデータセットよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-11T20:14:05Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Minimax Rates for High-Dimensional Random Tessellation Forests [0.0]
モンドリアン林は、任意の次元でミニマックスレートが得られた最初のランダム林である。
概略分割方向を持つ多種多様なランダム林は任意の次元における最小収束率も達成できることを示す。
論文 参考訳(メタデータ) (2021-09-22T06:47:38Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - Improved Weighted Random Forest for Classification Problems [3.42658286826597]
優れたアンサンブルモデルを作るための鍵は、ベースモデルの多様性にある。
そこで本研究では,正規林の重み付け戦略を改良するアルゴリズムを提案する。
提案したモデルでは,通常のランダム林に比べて大幅な改善が可能である。
論文 参考訳(メタデータ) (2020-09-01T16:08:45Z) - Censored Quantile Regression Forest [81.9098291337097]
我々は、検閲に適応し、データが検閲を示さないときに量子スコアをもたらす新しい推定方程式を開発する。
提案手法は, パラメトリックなモデリング仮定を使わずに, 時間単位の定量を推定することができる。
論文 参考訳(メタデータ) (2020-01-08T23:20:23Z) - Fr\'echet random forests for metric space valued regression with non
euclidean predictors [0.0]
我々はFr'echet木とFr'echetランダムフォレストを導入し、入力変数と出力変数が一般的な距離空間で値を取るデータを処理する。
データ駆動分割を用いたFr'echet回帰図予測器の一貫性定理をFr'echetの純粋にランダムな木に適用する。
論文 参考訳(メタデータ) (2019-06-04T22:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。