論文の概要: The Rashomon Importance Distribution: Getting RID of Unstable, Single
Model-based Variable Importance
- arxiv url: http://arxiv.org/abs/2309.13775v3
- Date: Sun, 10 Dec 2023 22:12:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 01:35:55.359677
- Title: The Rashomon Importance Distribution: Getting RID of Unstable, Single
Model-based Variable Importance
- Title(参考訳): 羅生門重要度分布:不安定かつ単一モデルに基づく可変値のRID化
- Authors: Jon Donnelly, Srikar Katta, Cynthia Rudin, Edward P. Browne
- Abstract要約: 多様性の重要性の定量化は、遺伝学、公共政策、医学といった分野における高い評価の疑問に答えるのに不可欠である。
本稿では,すべての優れたモデルの集合にまたがる変数の重要性を定量化し,データ分布にまたがって安定な新しい変数重要度フレームワークを提案する。
私たちのフレームワークは非常に柔軟で、既存のモデルクラスやグローバル変数の重要度メトリクスと統合できます。
- 参考スコア(独自算出の注目度): 18.17996488560711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantifying variable importance is essential for answering high-stakes
questions in fields like genetics, public policy, and medicine. Current methods
generally calculate variable importance for a given model trained on a given
dataset. However, for a given dataset, there may be many models that explain
the target outcome equally well; without accounting for all possible
explanations, different researchers may arrive at many conflicting yet equally
valid conclusions given the same data. Additionally, even when accounting for
all possible explanations for a given dataset, these insights may not
generalize because not all good explanations are stable across reasonable data
perturbations. We propose a new variable importance framework that quantifies
the importance of a variable across the set of all good models and is stable
across the data distribution. Our framework is extremely flexible and can be
integrated with most existing model classes and global variable importance
metrics. We demonstrate through experiments that our framework recovers
variable importance rankings for complex simulation setups where other methods
fail. Further, we show that our framework accurately estimates the true
importance of a variable for the underlying data distribution. We provide
theoretical guarantees on the consistency and finite sample error rates for our
estimator. Finally, we demonstrate its utility with a real-world case study
exploring which genes are important for predicting HIV load in persons with
HIV, highlighting an important gene that has not previously been studied in
connection with HIV. Code is available at
https://github.com/jdonnelly36/Rashomon_Importance_Distribution.
- Abstract(参考訳): 可変重要度を定量化することは、遺伝学、公共政策、医学などの分野における高リスクな質問に答えるために不可欠である。
現在の手法は一般に、与えられたデータセットでトレーニングされた与えられたモデルに対する変数の重要度を計算する。
しかし、あるデータセットに対して、ターゲットとなる結果について等しく説明できる多くのモデルが存在するかもしれない。
さらに、与えられたデータセットの可能なすべての説明を考慮に入れたとしても、これらの洞察は一般化しないかもしれない。
本稿では,すべての優れたモデルの集合における変数の重要性を定量化し,データ分布全体で安定な新しい変数重要度フレームワークを提案する。
私たちのフレームワークは非常に柔軟で、既存のモデルクラスやグローバル変数重要度メトリクスと統合できます。
実験により,提案手法は他の手法が失敗する複雑なシミュレーション環境において,変数重要度ランキングを回復することを示した。
さらに,本フレームワークは,基礎となるデータ分布に対する変数の真の重要性を正確に推定する。
推定器の整合性および有限サンプル誤差率に関する理論的保証を提供する。
最後に、HIV感染者のHIV負荷を予測するためにどの遺伝子が重要であるかを実世界のケーススタディで検証し、これまで研究されていない重要な遺伝子を強調した。
コードはhttps://github.com/jdonnelly36/Rashomon_Importance_Distributionで公開されている。
関連論文リスト
- Evidential time-to-event prediction model with well-calibrated uncertainty estimation [12.446406577462069]
本稿では,特に時間-時間予測タスクのために設計された明らかな回帰モデルを提案する。
最も確実な事象時間は、集約されたガウスランダムファジィ数(GRFN)によって直接定量化される
我々のモデルは精度と信頼性の両方を達成し、最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:04Z) - On the Universal Truthfulness Hyperplane Inside LLMs [27.007142483859162]
モデル内の事実的正確かつ誤った出力を区別する普遍真性超平面が存在するかどうかを考察する。
その結果,トレーニングデータセットの多様性の向上が,すべてのシナリオのパフォーマンスを著しく向上させることが示唆された。
論文 参考訳(メタデータ) (2024-07-11T15:07:26Z) - Semi-Supervised Learning for Deep Causal Generative Models [2.5847188023177403]
我々は、変数間の因果関係を利用して、利用可能なすべてのデータの使用を最大化する半教師付き深い因果生成モデルを開発する。
因果推論の手法を利用して、欠落した値を推測し、現実的な反事実を生成する。
論文 参考訳(メタデータ) (2024-03-27T16:06:37Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - BayesIMP: Uncertainty Quantification for Causal Data Fusion [52.184885680729224]
本研究では,複数の因果グラフに関連するデータセットを組み合わせ,対象変数の平均処理効果を推定する因果データ融合問題について検討する。
本稿では、確率積分とカーネル平均埋め込みのアイデアを組み合わせて、再生されたカーネルヒルベルト空間における干渉分布を表現するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-07T10:14:18Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - Evaluating Model Robustness and Stability to Dataset Shift [7.369475193451259]
機械学習モデルの安定性を解析するためのフレームワークを提案する。
本手法では,アルゴリズムが性能の悪い分布を決定するために,元の評価データを用いる。
我々は,アルゴリズムの性能を"Worst-case"分布で推定する。
論文 参考訳(メタデータ) (2020-10-28T17:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。