論文の概要: Heterogeneous Random Forest
- arxiv url: http://arxiv.org/abs/2410.19022v1
- Date: Thu, 24 Oct 2024 09:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:37:54.286029
- Title: Heterogeneous Random Forest
- Title(参考訳): 不均質なランダム林
- Authors: Ye-eun Kim, Seoung Yun Kim, Hyunjoong Kim,
- Abstract要約: 不均一ランダムフォレスト(HRF)は、木多様性を有意義な方法で向上させるように設計されている。
HRFは、ほとんどのデータセットの精度において、他のアンサンブル手法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 2.0646127669654835
- License:
- Abstract: Random forest (RF) stands out as a highly favored machine learning approach for classification problems. The effectiveness of RF hinges on two key factors: the accuracy of individual trees and the diversity among them. In this study, we introduce a novel approach called heterogeneous RF (HRF), designed to enhance tree diversity in a meaningful way. This diversification is achieved by deliberately introducing heterogeneity during the tree construction. Specifically, features used for splitting near the root node of previous trees are assigned lower weights when constructing the feature sub-space of the subsequent trees. As a result, dominant features in the prior trees are less likely to be employed in the next iteration, leading to a more diverse set of splitting features at the nodes. Through simulation studies, it was confirmed that the HRF method effectively mitigates the selection bias of trees within the ensemble, increases the diversity of the ensemble, and demonstrates superior performance on datasets with fewer noise features. To assess the comparative performance of HRF against other widely adopted ensemble methods, we conducted tests on 52 datasets, comprising both real-world and synthetic data. HRF consistently outperformed other ensemble methods in terms of accuracy across the majority of datasets.
- Abstract(参考訳): ランダムフォレスト(RF)は、分類問題に対する機械学習アプローチとして非常に好まれている。
RFヒンジの有効性は、個々の木の精度とそれらの多様性の2つの重要な要因に影響を及ぼす。
本研究では,木質の多様性を有意義に向上する手法として,不均質RF (HRF) を提案する。
この多様化は、ツリー構築中に意図的に異質性を導入することで達成される。
具体的には、次の木の特徴部分空間を構築する際に、前の木の根ノード付近で分割する際に用いる特徴を下重量に割り当てる。
結果として、前のツリーで支配的な機能が次のイテレーションで採用される可能性は低くなり、ノードでより多様な機能に分割されることになる。
シミュレーション実験により,HRF法はアンサンブル内の木の選択バイアスを効果的に軽減し,アンサンブルの多様性を高め,ノイズ特性の少ないデータセットに対して優れた性能を示すことを確認した。
HRFと他の広く採用されているアンサンブル法の比較性能を評価するため,実世界のデータと合成データの両方からなる52のデータセットを用いて実験を行った。
HRFは、ほとんどのデータセットの精度において、他のアンサンブル手法よりも一貫して優れていた。
関連論文リスト
- Binary Classification: Is Boosting stronger than Bagging? [5.877778007271621]
本稿では,バニラ・ランダム・フォレストの拡張である拡張ランダム・フォレストを紹介し,付加機能と適応サンプルおよびモデル重み付けについて述べる。
トレーニングサンプルの重み付けを適応するための反復アルゴリズムを開発し、最も難しい例を選好し、新しいサンプルごとに個別の木の重み付け手法を見つけるためのアプローチを開発した。
本手法は15の異なる二分分類データセットにまたがる通常のランダムフォレストを著しく改善し,XGBoostを含む他の木法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-24T23:22:33Z) - Learning Deep Tree-based Retriever for Efficient Recommendation: Theory and Method [76.31185707649227]
効率的なレコメンデーションのために,Deep Tree-based Retriever (DTR)を提案する。
DTRは、トレーニングタスクを、同じレベルでツリーノード上のソフトマックスベースのマルチクラス分類としてフレーム化している。
非リーフノードのラベル付けによって引き起こされる準最適性を緩和するため、損失関数の補正法を提案する。
論文 参考訳(メタデータ) (2024-08-21T05:09:53Z) - Enhancing Fast Feed Forward Networks with Load Balancing and a Master Leaf Node [49.08777822540483]
高速フィードフォワードネットワーク(FFF)は、入力空間の異なる領域が広いネットワークのニューロンの異なるサブセットを活性化する観察を利用する。
本稿では,FFFアーキテクチャにロードバランシングとマスタリーフ技術を導入し,性能向上とトレーニングプロセスの簡素化を図る。
論文 参考訳(メタデータ) (2024-05-27T05:06:24Z) - Why do Random Forests Work? Understanding Tree Ensembles as
Self-Regularizing Adaptive Smoothers [68.76846801719095]
統計学で広く普及している偏りと分散還元に対する現在の高次二分法は、木のアンサンブルを理解するには不十分である、と我々は主張する。
森林は、通常暗黙的に絡み合っている3つの異なるメカニズムによって、樹木を改良できることを示す。
論文 参考訳(メタデータ) (2024-02-02T15:36:43Z) - PhyloGFN: Phylogenetic inference with generative flow networks [57.104166650526416]
本稿では,系統学における2つの中核的問題に対処するための生成フローネットワーク(GFlowNets)の枠組みを紹介する。
GFlowNetsは複雑な構造をサンプリングするのに適しているため、木トポロジー上の多重モード後部分布を探索し、サンプリングするのに自然な選択である。
我々は, 実際のベンチマークデータセット上で, 様々な, 高品質な進化仮説を生成できることを実証した。
論文 参考訳(メタデータ) (2023-10-12T23:46:08Z) - Heterogeneous Oblique Double Random Forest [1.2599533416395767]
斜め決定木の性能は、斜め超平面の生成方法とそれらの超平面の生成に使用されるデータに依存する。
提案モデルでは、ブートストラップデータ上の各非リーフノードに複数の線形分類器を用い、最適線形分類器に基づいて元のデータを分割する。
実験により, 導入した異質な二重ランダム林の性能は, ベースラインモデルよりも比較的良好であることが示唆された。
論文 参考訳(メタデータ) (2023-04-13T19:14:23Z) - TreeMix: Compositional Constituency-based Data Augmentation for Natural
Language Understanding [56.794981024301094]
自然言語理解のための合成データ拡張手法であるTreeMixを提案する。
具体的には、TreeMixは、選択構文解析木を利用して、文章を構成要素のサブ構造に分解し、ミックスアップデータ拡張技術を使って、それらを再結合して新しい文を生成する。
従来のアプローチと比較して、TreeMixは生成されたサンプルにより多様性を導入し、NLPデータの合成性を学ぶようモデルに促している。
論文 参考訳(メタデータ) (2022-05-12T15:25:12Z) - Hierarchical Shrinkage: improving the accuracy and interpretability of
tree-based methods [10.289846887751079]
木構造を改変しないポストホックアルゴリズムである階層収縮(Hierarchical Shrinkage, HS)を導入する。
HSは、他の正規化技術と併用しても、決定木の予測性能を大幅に向上させる。
すべてのコードとモデルはGithubにある本格的なパッケージでリリースされている。
論文 参考訳(メタデータ) (2022-02-02T02:43:23Z) - Crossbreeding in Random Forest [5.8010446129208155]
エンサンブル学習方法は、より良い予測性能のための複数の学習アルゴリズムの恩恵を受けるように設計されています。
この改良された性能のトレードオフは、シングルラーニングシステムと比較して、より遅い速度とより大きいアンサンブル学習システムである。
本稿では,最も強力なアンサンブル手法の1つとして,ランダムフォレスト(RF)でこの問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-21T12:58:54Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z) - Optimal survival trees ensemble [0.0]
近年の研究では、分類と回帰問題のためのアンサンブル内での個人的または集団的パフォーマンスに基づいて、正確で多様な木を選択するアプローチが採用されている。
この研究は、これらの調査のきっかけに続き、最適な生存樹の森を成長させる可能性について考察する。
予測性能の向上に加えて,本手法はアンサンブル内の生存木数を削減する。
論文 参考訳(メタデータ) (2020-05-18T19:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。