論文の概要: On feature selection in double-imbalanced data settings: a Random Forest approach
- arxiv url: http://arxiv.org/abs/2506.10929v1
- Date: Thu, 12 Jun 2025 17:37:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.875892
- Title: On feature selection in double-imbalanced data settings: a Random Forest approach
- Title(参考訳): 二重不均衡データ設定における特徴選択について:ランダムフォレストアプローチ
- Authors: Fabio Demaria,
- Abstract要約: 本稿では,最小深度に基づく特徴選択のための新しいしきい値決定手法を提案する。
シミュレーションおよび実世界のデータセットに関する実験により、提案手法は変数のより類似的で正確な部分集合を生成することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection is a critical step in high-dimensional classification tasks, particularly under challenging conditions of double imbalance, namely settings characterized by both class imbalance in the response variable and dimensional asymmetry in the data $(n \gg p)$. In such scenarios, traditional feature selection methods applied to Random Forests (RF) often yield unstable or misleading importance rankings. This paper proposes a novel thresholding scheme for feature selection based on minimal depth, which exploits the tree topology to assess variable relevance. Extensive experiments on simulated and real-world datasets demonstrate that the proposed approach produces more parsimonious and accurate subsets of variables compared to conventional minimal depth-based selection. The method provides a practical and interpretable solution for variable selection in RF under double imbalance conditions.
- Abstract(参考訳): 特徴選択は高次元分類タスクにおいて重要なステップであり、特に二重不均衡の困難な条件下では、応答変数のクラス不均衡とデータ$(n \gg p)$の次元非対称性の両方が特徴である。
このようなシナリオでは、ランダムフォレスト(RF)に適用される伝統的な特徴選択手法は、しばしば不安定または誤解を招く重要なランキングをもたらす。
本稿では,最小深度に基づく特徴選択のための新しいしきい値決定手法を提案する。
シミュレーションおよび実世界のデータセットに関する大規模な実験により、提案手法は従来の最小深度に基づく選択よりも、より類似的で正確な変数のサブセットを生成することが示された。
この方法は、二重不均衡条件下でのRFにおける可変選択のための実用的で解釈可能な解を提供する。
関連論文リスト
- Classification of High-dimensional Time Series in Spectral Domain using Explainable Features [8.656881800897661]
本稿では,高次元定常時系列を分類するためのモデルに基づくアプローチを提案する。
我々のアプローチはモデルパラメータの解釈可能性を強調し、神経科学のような分野に特に適している。
我々の手法の新規性は、モデルパラメータの解釈可能性にあり、神経科学における重要なニーズに対処する。
論文 参考訳(メタデータ) (2024-08-15T19:10:12Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [55.87169702896249]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Variational Classification [51.2541371924591]
我々は,変分オートエンコーダの訓練に用いるエビデンスローバウンド(ELBO)に類似した,モデルの訓練を目的とした変分目的を導出する。
軟質マックス層への入力を潜伏変数のサンプルとして扱うことで, 抽象化された視点から, 潜在的な矛盾が明らかとなった。
我々は、標準ソフトマックス層に見られる暗黙の仮定の代わりに、選択された潜在分布を誘導する。
論文 参考訳(メタデータ) (2023-05-17T17:47:19Z) - A model-free feature selection technique of feature screening and random
forest based recursive feature elimination [0.0]
質量特徴を持つ超高次元データのモデルフリー特徴選択法を提案する。
提案手法は選択整合性を示し, 弱正則条件下では$L$整合性を示す。
論文 参考訳(メタデータ) (2023-02-15T03:39:16Z) - Random Forest Weighted Local Fréchet Regression with Random Objects [18.128663071848923]
本稿では,新しいランダム森林重み付き局所Fr'echet回帰パラダイムを提案する。
最初の方法は、これらの重みを局所平均として、条件付きFr'echet平均を解くことである。
第二の手法は局所線形Fr'echet回帰を行い、どちらも既存のFr'echet回帰法を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-10T09:10:59Z) - Feature subset selection for Big Data via Chaotic Binary Differential
Evolution under Apache Spark [4.241208172557663]
本稿では,基数とAUCを含む新しい乗法的単一目的関数を提案する。
二項微分進化(BDE)にロジスティックおよびテントカオス写像を組み込み、それをカオス二項微分進化(CBDE)と命名した。
その結果,P-CBDE-iS(Chaotic Binary Differential Evolution)とP-CBDE-iS(Chaotic Binary Differential Evolution)により,より高品質な特徴部分集合が得られた。
論文 参考訳(メタデータ) (2022-02-08T11:39:40Z) - Variational Bayes for high-dimensional proportional hazards models with
applications to gene expression variable selection [3.8761064607384195]
本研究では,高次元生存データに対する予測と変動選択のための変分ベイズ比例ハザードモデルを提案する。
本手法は,平均場変動近似に基づいて,MCMCの高計算コストを克服する。
提案手法は,生存率を検閲した2つのトランスクリプトームデータセット上で,変数選択にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2021-12-19T22:10:41Z) - Universal and data-adaptive algorithms for model selection in linear
contextual bandits [52.47796554359261]
モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。
データ適応的な方法で探索する新しいアルゴリズムを導入し、$mathcalO(dalpha T1- alpha)$という形式の保証を提供する。
我々のアプローチは、いくつかの仮定の下で、ネストされた線形文脈包帯のモデル選択に拡張する。
論文 参考訳(メタデータ) (2021-11-08T18:05:35Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。