論文の概要: MMD-based Variable Importance for Distributional Random Forest
- arxiv url: http://arxiv.org/abs/2310.12115v2
- Date: Wed, 14 Feb 2024 13:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 19:20:26.538254
- Title: MMD-based Variable Importance for Distributional Random Forest
- Title(参考訳): 分布型ランダム林におけるmmdに基づく変数重要度
- Authors: Cl\'ement B\'enard and Jeffrey N\"af and Julie Josse
- Abstract要約: 分布ランダムフォレスト(DRF)における変数重要度アルゴリズムを提案する。
導入された重要度尺度は一貫性があり、実データと模擬データの両方で高い経験的性能を示し、競合より優れていることを示す。
- 参考スコア(独自算出の注目度): 5.0459880125089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributional Random Forest (DRF) is a flexible forest-based method to
estimate the full conditional distribution of a multivariate output of interest
given input variables. In this article, we introduce a variable importance
algorithm for DRFs, based on the well-established drop and relearn principle
and MMD distance. While traditional importance measures only detect variables
with an influence on the output mean, our algorithm detects variables impacting
the output distribution more generally. We show that the introduced importance
measure is consistent, exhibits high empirical performance on both real and
simulated data, and outperforms competitors. In particular, our algorithm is
highly efficient to select variables through recursive feature elimination, and
can therefore provide small sets of variables to build accurate estimates of
conditional output distributions.
- Abstract(参考訳): 分布ランダムフォレスト(DRF)は、入力変数の多変量出力の完全な条件分布を推定する柔軟な森林ベースの手法である。
本稿では,drfsに対する可変重要度アルゴリズムについて,定評のあるドロップ・リリーン原理とmmd距離に基づいて述べる。
従来の重要度尺度は出力平均に影響を与える変数のみを検出するが、我々のアルゴリズムは出力分布に影響を与える変数をより一般的に検出する。
導入した重要度尺度は一貫性があり,実データとシミュレーションデータの両方において高い経験的性能を示し,競争相手を上回っている。
特に,本アルゴリズムは再帰的特徴除去による変数の選択に極めて効率的であり,条件付き出力分布の正確な推定を行うために,少数の変数セットを提供できる。
関連論文リスト
- Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - Multiple Hypothesis Dropout: Estimating the Parameters of Multi-Modal
Output Distributions [22.431244647796582]
本稿では,複数出力関数(Multiple-Output function, MoM)の解法について, 新たな解法であるMultiple hypothesis Dropoutを用いて提案する。
教師付き学習問題に対する実験は、我々の手法がマルチモーダルな出力分布を再構築するための既存のソリューションよりも優れていることを示している。
教師なし学習問題に関するさらなる研究は、離散オートエンコーダ内の潜在後続分布のパラメータを推定することで、コードブックの効率、サンプル品質、精度、リコールを大幅に改善することを示している。
論文 参考訳(メタデータ) (2023-12-18T22:20:11Z) - DIVERSIFY: A General Framework for Time Series Out-of-distribution
Detection and Generalization [58.704753031608625]
時系列は、機械学習研究における最も困難なモダリティの1つである。
時系列上でのOODの検出と一般化は、その非定常性によって悩まされる傾向がある。
時系列の動的分布のOOD検出と一般化のためのフレームワークであるDIVERSIFYを提案する。
論文 参考訳(メタデータ) (2023-08-04T12:27:11Z) - Label Shift Quantification with Robustness Guarantees via Distribution
Feature Matching [3.2013172123155615]
筆者らはまず,従来の文献で導入された様々な推定器の特定の例として回復する分散特徴マッチング(DFM)の統一フレームワークを提案する。
次に、この解析を拡張し、正確なラベルシフト仮説から逸脱した不特定条件下でのDFM手順の堅牢性について検討する。
これらの理論的発見は、シミュレーションおよび実世界のデータセットに関する詳細な数値的研究によって確認される。
論文 参考訳(メタデータ) (2023-06-07T12:17:34Z) - Efficient CDF Approximations for Normalizing Flows [64.60846767084877]
正規化フローの微分同相性に基づいて、閉領域上の累積分布関数(CDF)を推定する。
一般的なフローアーキテクチャとUCIデータセットに関する実験は,従来の推定器と比較して,サンプル効率が著しく向上したことを示している。
論文 参考訳(メタデータ) (2022-02-23T06:11:49Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Probabilistic Kolmogorov-Arnold Network [1.4732811715354455]
本稿では,アレータティック不確実性の場合に出力の確率分布を推定する手法を提案する。
提案手法は, 出力の入力依存確率分布と, 入力による分布型の変化を対象とする。
本手法は任意の回帰モデルに適用できるが, 計算効率のよいモデルの構築につながるため,kansと組み合わせる。
論文 参考訳(メタデータ) (2021-04-04T23:49:15Z) - Distributional Random Forests: Heterogeneity Adjustment and Multivariate
Distributional Regression [0.8574682463936005]
共同条件分布に基づく多変量応答のための新しい森林構築法を提案する。
コードはPythonとRパッケージとして利用可能である。
論文 参考訳(メタデータ) (2020-05-29T09:05:00Z) - Trees, forests, and impurity-based variable importance [0.0]
MDI(Mean Decrease Impurity)という2つのよく知られたランダムな森林変動の重要度を分析した。
入力変数が独立であり、相互作用がない場合、MDIは出力の分散分解を提供する。
分析の結果,単木に比べて森林の利用にはいくつかの利点がある可能性が示唆された。
論文 参考訳(メタデータ) (2020-01-13T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。