論文の概要: Triplot: model agnostic measures and visualisations for variable
importance in predictive models that take into account the hierarchical
correlation structure
- arxiv url: http://arxiv.org/abs/2104.03403v1
- Date: Wed, 7 Apr 2021 21:29:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 12:59:50.478470
- Title: Triplot: model agnostic measures and visualisations for variable
importance in predictive models that take into account the hierarchical
correlation structure
- Title(参考訳): Triplot:モデル非依存測度と階層的相関構造を考慮した予測モデルにおける変数重要性の可視化
- Authors: Katarzyna Pekala, Katarzyna Woznica, Przemyslaw Biecek
- Abstract要約: 変数間の相関に関する情報を利用してモデル解析を支援する新しい手法を提案する。
ユーザが提案した変数群(アスペクト)と、自動的に決定される変数群(アスペクト)を解析する方法を紹介します。
また,可変グルーピングの階層構造を利用して高情報密度モデル可視化を行うtriplotという新しいタイプのモデル可視化手法を提案する。
- 参考スコア(独自算出の注目度): 3.0036519884678894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key elements of explanatory analysis of a predictive model is to
assess the importance of individual variables. Rapid development of the area of
predictive model exploration (also called explainable artificial intelligence
or interpretable machine learning) has led to the popularization of methods for
local (instance level) and global (dataset level) methods, such as
Permutational Variable Importance, Shapley Values (SHAP), Local Interpretable
Model Explanations (LIME), Break Down and so on. However, these methods do not
use information about the correlation between features which significantly
reduce the explainability of the model behaviour. In this work, we propose new
methods to support model analysis by exploiting the information about the
correlation between variables. The dataset level aspect importance measure is
inspired by the block permutations procedure, while the instance level aspect
importance measure is inspired by the LIME method. We show how to analyze
groups of variables (aspects) both when they are proposed by the user and when
they should be determined automatically based on the hierarchical structure of
correlations between variables. Additionally, we present the new type of model
visualisation, triplot, which exploits a hierarchical structure of variable
grouping to produce a high information density model visualisation. This
visualisation provides a consistent illustration for either local or global
model and data exploration. We also show an example of real-world data with 5k
instances and 37 features in which a significant correlation between variables
affects the interpretation of the effect of variable importance. The proposed
method is, to our knowledge, the first to allow direct use of the correlation
between variables in exploratory model analysis.
- Abstract(参考訳): 予測モデルの説明分析の重要な要素の1つは、個々の変数の重要性を評価することである。
予測モデル探索の分野(説明可能な人工知能または解釈可能な機械学習とも呼ばれる)の急速な発展は、局所的(インスタンスレベル)およびグローバルな(データセットレベル)手法(Permutational Variable Importance, Shapley Values (SHAP), Local Interpretable Model Explanations (LIME), Break Downなど)の普及につながっている。
しかし、これらの手法は、モデル行動の説明可能性を大幅に低下させる特徴間の相関に関する情報を使用しない。
本研究では,変数間の相関関係情報を利用してモデル解析を支援する新しい手法を提案する。
データセットレベルのアスペクト重要度尺度はブロック置換手順にインスパイアされ、インスタンスレベルのアスペクト重要度尺度はLIMEメソッドにインスパイアされます。
本稿では,変数群(アスペクト)をユーザが提案する時と,変数間の相関関係の階層構造に基づいて自動的に決定すべき時の両方を解析する方法を示す。
さらに、可変グループ化の階層構造を利用して高情報密度モデル可視化を生成する新しいタイプのモデル可視化である三脚を提案する。
この視覚化は、ローカルモデルとグローバルモデルとデータ探索の両方に対して一貫したイラストを提供する。
また,変数間の有意な相関が変数重要度の影響の解釈に影響を与える5kインスタンスと37の特徴を持つ実世界のデータの例を示す。
提案手法は, 探索モデル解析において, 変数間の相関を直接利用することを可能にする最初の方法である。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Information theory for data-driven model reduction in physics and biology [0.0]
我々は,関連変数を特定するために,情報ボトルネックに基づく体系的アプローチを開発する。
高圧縮の極限において、関連する変数は、最も遅い遅延固有関数によって直接決定されることを示す。
モデルリダクションを実行する解釈可能なディープラーニングツールを構築するための確固たる基盤を提供する。
論文 参考訳(メタデータ) (2023-12-11T18:39:05Z) - Exploring the cloud of feature interaction scores in a Rashomon set [17.775145325515993]
本稿では,Rashomon セットのコンテキストにおける特徴相互作用スコア (FIS) について述べる。
我々は、合成データを用いてFISの特性を実証し、他の統計分野との接続を図示する。
この結果から,提案したFISは,機械学習モデルにおける特徴相互作用の性質に関する貴重な洞察を得られることが示唆された。
論文 参考訳(メタデータ) (2023-05-17T13:05:26Z) - A Notion of Feature Importance by Decorrelation and Detection of Trends
by Random Forest Regression [1.675857332621569]
本稿では,よく研究されたGram-Schmidt decorrelation法に基づく特徴重要度の概念を導入する。
本研究では,ランダムな森林回帰を用いてデータ中の傾向を推定する2つの推定手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T11:01:49Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - RevUp: Revise and Update Information Bottleneck for Event Representation [16.54912614895861]
機械学習では、潜在変数は基礎となるデータ構造をキャプチャする上で重要な役割を果たすが、しばしば教師なしである。
本稿では,側知識を用いて個別潜伏変数の学習を指示する半教師付き情報ボトルネックモデルを提案する。
提案手法は,既存のパラメータ注入法を一般化し,言語に基づくイベントモデリングにおけるアプローチの実証的なケーススタディを行う。
論文 参考訳(メタデータ) (2022-05-24T17:54:59Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Multivariate Data Explanation by Jumping Emerging Patterns Visualization [78.6363825307044]
多変量データセットにおけるパターンの識別と視覚的解釈を支援するVAX(multiVariate dAta eXplanation)を提案する。
既存の類似のアプローチとは異なり、VAXはJumping Emerging Patternsという概念を使って、複数の多様化したパターンを特定し、集約し、データ変数のロジックの組み合わせを通して説明を生成する。
論文 参考訳(メタデータ) (2021-06-21T13:49:44Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。