論文の概要: From global to local MDI variable importances for random forests and
when they are Shapley values
- arxiv url: http://arxiv.org/abs/2111.02218v1
- Date: Wed, 3 Nov 2021 13:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:41:44.423915
- Title: From global to local MDI variable importances for random forests and
when they are Shapley values
- Title(参考訳): ランダム林における大域的から局所的mdi変数の重要性とシャプリー値の場合
- Authors: Antonio Sutera, Gilles Louppe, Van Anh Huynh-Thu, Louis Wehenkel,
Pierre Geurts
- Abstract要約: まず,世界平均不純物量(MDI)の変動重要度スコアが,いくつかの条件下でのシェープリー値と一致することを示す。
我々は、グローバルなMDI尺度と非常に自然な関係を持ち、局所的特徴関連性の新たな概念と結びつく、変数関連性の局所的MDI重要度尺度を導出する。
- 参考スコア(独自算出の注目度): 9.99125500568217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random forests have been widely used for their ability to provide so-called
importance measures, which give insight at a global (per dataset) level on the
relevance of input variables to predict a certain output. On the other hand,
methods based on Shapley values have been introduced to refine the analysis of
feature relevance in tree-based models to a local (per instance) level. In this
context, we first show that the global Mean Decrease of Impurity (MDI) variable
importance scores correspond to Shapley values under some conditions. Then, we
derive a local MDI importance measure of variable relevance, which has a very
natural connection with the global MDI measure and can be related to a new
notion of local feature relevance. We further link local MDI importances with
Shapley values and discuss them in the light of related measures from the
literature. The measures are illustrated through experiments on several
classification and regression problems.
- Abstract(参考訳): ランダムフォレストは、特定のアウトプットを予測する入力変数の関連性に関するグローバル(データセット毎)レベルの洞察を与える、いわゆる重要度指標を提供する能力として広く使われている。
一方、ツリーベースモデルの局所的(インスタンス単位)レベルへの特徴的関連性の分析を洗練するために、shapley値に基づく手法が導入された。
この文脈では、まず、大域的不純物量減少(MDI)変動重要度スコアが、いくつかの条件下でシェープリー値に対応することを示す。
次に,グローバルなMDI尺度と非常に自然な関係を持ち,局所的特徴関連性の新たな概念に関連付けることのできる,変数関連性の局所的MDI重要度尺度を導出する。
さらに,本論文では,現地のMDI重要度とシェープ価値を関連づけるとともに,文献の関連指標として議論する。
これらの測度は、いくつかの分類および回帰問題に関する実験を通じて説明される。
関連論文リスト
- Model agnostic local variable importance for locally dependent relationships [2.3374134413353254]
局所変数の重要度を計算するためのモデルに依存しない新しい手法であるCLIQUEを提案する。
変数が応答に影響しない領域において,CLIQUEは局所的依存情報を強調し,バイアスを適切に低減することを示す。
論文 参考訳(メタデータ) (2024-11-13T17:59:44Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Data Valuation by Leveraging Global and Local Statistical Information [25.911043100052588]
グローバルとローカルの両方の値分布が、機械学習の文脈におけるデータ評価に有意な可能性を秘めていることを示す。
提案手法は,探索された分布特性を既存手法であるAMEに組み込むことで,Shapley値を推定する新しいデータ評価手法であるAMEを提案する。
また,グローバルな値分布と局所的な値分布の情報を統合した最適化問題を定式化することにより,動的データ評価問題に対処する新たな経路を提案する。
論文 参考訳(メタデータ) (2024-05-23T08:58:08Z) - Adaptive Global-Local Representation Learning and Selection for
Cross-Domain Facial Expression Recognition [54.334773598942775]
ドメインシフトは、クロスドメイン顔表情認識(CD-FER)において重要な課題となる
適応的グローバルローカル表現学習・選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-20T02:21:41Z) - MMD-based Variable Importance for Distributional Random Forest [5.0459880125089]
分布ランダムフォレスト(DRF)における変数重要度アルゴリズムを提案する。
導入された重要度尺度は一貫性があり、実データと模擬データの両方で高い経験的性能を示し、競合より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T17:12:29Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Generalizable Metric Network for Cross-domain Person Re-identification [55.71632958027289]
クロスドメイン(ドメインの一般化)シーンは、Re-IDタスクにおいて課題となる。
既存のほとんどのメソッドは、すべてのドメインのドメイン不変またはロバストな機能を学ぶことを目的としています。
本稿では,サンプルペア空間における標本類似性を調べるために,GMN(Generalizable Metric Network)を提案する。
論文 参考訳(メタデータ) (2023-06-21T03:05:25Z) - Improving Mutual Information Estimation with Annealed and Energy-Based
Bounds [20.940022170594816]
相互情報(英: Mutual Information、MI)は、情報理論と機械学習における基本的な量である。
重要サンプリングの観点から,既存のMI境界の統一的な視点を示す。
このアプローチに基づく3つの新しい境界を提案する。
論文 参考訳(メタデータ) (2023-03-13T10:47:24Z) - Federated and Generalized Person Re-identification through Domain and
Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。
一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。
提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-05T09:15:13Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - Triplot: model agnostic measures and visualisations for variable
importance in predictive models that take into account the hierarchical
correlation structure [3.0036519884678894]
変数間の相関に関する情報を利用してモデル解析を支援する新しい手法を提案する。
ユーザが提案した変数群(アスペクト)と、自動的に決定される変数群(アスペクト)を解析する方法を紹介します。
また,可変グルーピングの階層構造を利用して高情報密度モデル可視化を行うtriplotという新しいタイプのモデル可視化手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T21:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。