論文の概要: MDA for random forests: inconsistency, and a practical solution via the
Sobol-MDA
- arxiv url: http://arxiv.org/abs/2102.13347v1
- Date: Fri, 26 Feb 2021 07:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-01 14:02:09.398935
- Title: MDA for random forests: inconsistency, and a practical solution via the
Sobol-MDA
- Title(参考訳): ランダム森林用MDA:不整合性、Sobol-MDAによる実用的なソリューション。
- Authors: Cl\'ement B\'enard (LPSM), S\'ebastien da Veiga, Erwan Scornet (CMAP)
- Abstract要約: MDA(Mean Decrease Accuracy)は、ランダム林において最も効率的な変数重要度尺度として広く受け入れられている。
我々は,様々な実装されたMDAアルゴリズムを数学的に定式化し,サンプルサイズが大きくなるとその限界を確定する。
Sobol-MDAの一貫性を証明し、シミュレーションデータと実データの両方の実験を通じて、その優れた実証性能を示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Variable importance measures are the main tools to analyze the black-box
mechanism of random forests. Although the Mean Decrease Accuracy (MDA) is
widely accepted as the most efficient variable importance measure for random
forests, little is known about its theoretical properties. In fact, the exact
MDA definition varies across the main random forest software. In this article,
our objective is to rigorously analyze the behavior of the main MDA
implementations. Consequently, we mathematically formalize the various
implemented MDA algorithms, and then establish their limits when the sample
size increases. In particular, we break down these limits in three components:
the first two are related to Sobol indices, which are well-defined measures of
a variable contribution to the output variance, widely used in the sensitivity
analysis field, as opposed to the third term, whose value increases with
dependence within input variables. Thus, we theoretically demonstrate that the
MDA does not target the right quantity when inputs are dependent, a fact that
has already been noticed experimentally. To address this issue, we define a new
importance measure for random forests, the Sobol-MDA, which fixes the flaws of
the original MDA. We prove the consistency of the Sobol-MDA and show its good
empirical performance through experiments on both simulated and real data. An
open source implementation in R and C++ is available online.
- Abstract(参考訳): 変数重要度尺度は、ランダム森林のブラックボックス機構を分析する主要なツールである。
平均減少精度(MDA)はランダム森林にとって最も効率的な変数重要度尺度として広く受け入れられているが、その理論的性質についてはほとんど知られていない。
実際、正確なMDA定義は、メインのランダムフォレストソフトウェアによって異なる。
本稿では,主要なMDA実装の動作を厳格に分析することを目的とする。
その結果,様々な実装されたMDAアルゴリズムを数学的に定式化し,サンプルサイズが大きくなるとその限界を確定する。
特に、これらの限界を3つの成分に分解する: 第一の2つは、入力変数の依存性によって値が増加する第三項とは対照的に、出力の分散に対する変数の寄与を適切に定義した尺度であるソボ指標に関連付けられている。
そこで,本研究では,入力が依存している場合には,MDAが適切な量を目標としていないことを理論的に示した。
この問題に対処するために、我々は、元のMDAの欠陥を修正するランダム森林の新たな重要度尺度、Sobol-MDAを定義した。
Sobol-MDAの一貫性を証明し、シミュレーションデータと実データの両方の実験を通じて、その優れた実証性能を示します。
RとC++のオープンソース実装がオンラインで公開されている。
関連論文リスト
- MMD-based Variable Importance for Distributional Random Forest [5.0459880125089]
分布ランダムフォレスト(DRF)における変数重要度アルゴリズムを提案する。
導入された重要度尺度は一貫性があり、実データと模擬データの両方で高い経験的性能を示し、競合より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T17:12:29Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Algorithm-Dependent Bounds for Representation Learning of Multi-Source
Domain Adaptation [7.6249291891777915]
我々は情報理論ツールを用いて、表現学習の観点からMDA(Multi-source Domain Adaptation)の新たな分析を導出する。
本稿では,結合アライメントによる目標シフトに暗黙的に対処する,新しい深度MDAアルゴリズムを提案する。
提案アルゴリズムは、目標シフトしたMDAベンチマークの最先端性能に匹敵し、メモリ効率が向上した。
論文 参考訳(メタデータ) (2023-04-04T18:32:20Z) - Estimation-of-Distribution Algorithms for Multi-Valued Decision
Variables [10.165640083594573]
我々は、遺伝的ドリフトの既知の定量的解析を、多値変数の分布推定アルゴリズムに拡張する。
我々の研究は、バイナリEDAの理解が自然に多値設定にまで拡張されていることを示している。
論文 参考訳(メタデータ) (2023-02-28T08:52:40Z) - On the Variance of the Fisher Information for Deep Learning [79.71410479830222]
Fisher InformationMatrix (FIM) はディープラーニングの領域に応用されている。
正確なFIMは、クローズドな形で利用できないか、計算に高すぎるかのいずれかである。
FIMの2つの等価表現に基づく2つの推定器について検討する。
論文 参考訳(メタデータ) (2021-07-09T04:46:50Z) - Rethink Maximum Mean Discrepancy for Domain Adaptation [77.2560592127872]
本論文は,(1)最大平均距離の最小化は,それぞれソースとクラス内距離の最大化に等しいが,その差を暗黙の重みと共同で最小化し,特徴判別性は低下する,という2つの本質的な事実を理論的に証明する。
いくつかのベンチマークデータセットの実験は、理論的な結果の有効性を証明しただけでなく、我々のアプローチが比較した最先端手法よりも大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2020-07-01T18:25:10Z) - Rethinking Distributional Matching Based Domain Adaptation [111.15106414932413]
ドメイン適応(DA)は、ラベル付きソースドメインでトレーニングされた予測モデルをラベル付きターゲットドメインに転送するテクニックである。
最も一般的なDAアルゴリズムは、分散マッチング(DM)に基づいている。
本稿では,まずDMに基づく手法の限界を体系的に分析し,さらに現実的なドメインシフトを持つ新しいベンチマークを構築する。
論文 参考訳(メタデータ) (2020-06-23T21:55:14Z) - Neural Methods for Point-wise Dependency Estimation [129.93860669802046]
我々は,2つの結果が共起する確率を定量的に測定する点依存度(PD)の推定に焦点をあてる。
提案手法の有効性を,1)MI推定,2)自己教師付き表現学習,3)クロスモーダル検索タスクで示す。
論文 参考訳(メタデータ) (2020-06-09T23:26:15Z) - Multi-source Domain Adaptation in the Deep Learning Era: A Systematic
Survey [53.656086832255944]
マルチソースドメイン適応(MDA)は、ラベル付きデータを複数のソースから収集できる強力な拡張である。
MDAは学術と産業の両方で注目を集めている。
論文 参考訳(メタデータ) (2020-02-26T08:07:58Z) - Improving Reliability of Latent Dirichlet Allocation by Assessing Its
Stability Using Clustering Techniques on Replicated Runs [0.3499870393443268]
本研究は,LDAの安定度を再現走行の代入値と比較することによって検討する。
修正ジャカード係数を用いて、2つの生成トピックの類似性を定量化する。
S-CLOPはLDAモデルの安定性を評価するのに有用であることを示す。
論文 参考訳(メタデータ) (2020-02-14T07:10:18Z) - Trees, forests, and impurity-based variable importance [0.0]
MDI(Mean Decrease Impurity)という2つのよく知られたランダムな森林変動の重要度を分析した。
入力変数が独立であり、相互作用がない場合、MDIは出力の分散分解を提供する。
分析の結果,単木に比べて森林の利用にはいくつかの利点がある可能性が示唆された。
論文 参考訳(メタデータ) (2020-01-13T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。