論文の概要: Feature graphs for interpretable unsupervised tree ensembles: centrality, interaction, and application in disease subtyping
- arxiv url: http://arxiv.org/abs/2404.17886v1
- Date: Sat, 27 Apr 2024 12:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 18:51:42.782325
- Title: Feature graphs for interpretable unsupervised tree ensembles: centrality, interaction, and application in disease subtyping
- Title(参考訳): 解釈不能な樹木アンサンブルのための特徴グラフ:中央性、相互作用、および病気のサブタイピングへの応用
- Authors: Christel Sirocchi, Martin Urschler, Bastian Pfeifer,
- Abstract要約: 特徴の選択は、モデルの解釈可能性を高める上で重要な役割を担います。
決定木を集約することで得られる精度は、解釈可能性の犠牲となる。
この研究では、教師なしランダムな森林から特徴グラフを構築するための新しい手法を紹介した。
- 参考スコア(独自算出の注目度): 0.24578723416255746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretable machine learning has emerged as central in leveraging artificial intelligence within high-stakes domains such as healthcare, where understanding the rationale behind model predictions is as critical as achieving high predictive accuracy. In this context, feature selection assumes a pivotal role in enhancing model interpretability by identifying the most important input features in black-box models. While random forests are frequently used in biomedicine for their remarkable performance on tabular datasets, the accuracy gained from aggregating decision trees comes at the expense of interpretability. Consequently, feature selection for enhancing interpretability in random forests has been extensively explored in supervised settings. However, its investigation in the unsupervised regime remains notably limited. To address this gap, the study introduces novel methods to construct feature graphs from unsupervised random forests and feature selection strategies to derive effective feature combinations from these graphs. Feature graphs are constructed for the entire dataset as well as individual clusters leveraging the parent-child node splits within the trees, such that feature centrality captures their relevance to the clustering task, while edge weights reflect the discriminating power of feature pairs. Graph-based feature selection methods are extensively evaluated on synthetic and benchmark datasets both in terms of their ability to reduce dimensionality while improving clustering performance, as well as to enhance model interpretability. An application on omics data for disease subtyping identifies the top features for each cluster, showcasing the potential of the proposed approach to enhance interpretability in clustering analyses and its utility in a real-world biomedical application.
- Abstract(参考訳): 解釈可能な機械学習は、医療などの高度な領域における人工知能の活用の中心として現れており、モデル予測の背後にある理論的根拠を理解することは、高い予測精度を達成するのと同じくらい重要である。
この文脈では、ブラックボックスモデルにおいて最も重要な入力特徴を特定することによって、モデル解釈可能性を高める上で、特徴選択が重要な役割を担っている。
ランダムな森林は、表層データセットにおける顕著なパフォーマンスのためにしばしばバイオメディシンで使用されるが、集約された決定木から得られる精度は、解釈可能性の犠牲となる。
その結果、無作為林における解釈可能性を高めるための特徴選択は、教師付き環境で広く研究されている。
しかし、非監督体制における調査は、依然として顕著に限られている。
このギャップに対処するために、教師なしランダムな森林から特徴グラフを構築する新しい手法と、これらのグラフから効果的な特徴組合せを導出するための特徴選択戦略を導入する。
特徴グラフはデータセット全体と、親子ノードの分割を利用した個々のクラスタで構成されており、機能中心性はクラスタリングタスクとの関係を捉え、エッジウェイトは特徴ペアの識別力を反映している。
グラフベースの特徴選択法は、クラスタリング性能を改善しながら次元性を低減する能力と、モデルの解釈可能性を高める能力の両方の観点から、合成データセットとベンチマークデータセットで広範囲に評価される。
病気のサブタイピングのためのオミクスデータの適用は、クラスタリング分析における解釈可能性を高めるための提案手法の可能性を実世界のバイオメディカルアプリケーションで示し、各クラスタの上位の特徴を識別する。
関連論文リスト
- Enhancing Missing Data Imputation through Combined Bipartite Graph and Complete Directed Graph [18.06658040186476]
BCGNN(Bipartite and Complete Directed Graph Neural Network)という新しいフレームワークを導入する。
BCGNN内では、観察と特徴は2つの異なるノードタイプとして区別され、観察された特徴の値はそれらをリンクする属性付きエッジに変換される。
並行して、完全な有向グラフセグメントは、機能間の複雑な相互依存性を網羅し、伝達する。
論文 参考訳(メタデータ) (2024-11-07T17:48:37Z) - Spectral Self-supervised Feature Selection [7.052728135831165]
教師なし特徴選択のための自己教師付きグラフベースアプローチを提案する。
提案手法のコアは,グラフラプラシアンの固有ベクトルに単純な処理ステップを適用することで,ロバストな擬似ラベルを計算することである。
我々のアプローチは、外れ値や複雑な部分構造の存在など、困難なシナリオに対して堅牢であることが示されている。
論文 参考訳(メタデータ) (2024-07-12T07:29:08Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Prospector Heads: Generalized Feature Attribution for Large Models & Data [82.02696069543454]
本稿では,説明に基づく帰属手法の効率的かつ解釈可能な代替手段であるプロスペクタヘッドを紹介する。
入力データにおけるクラス固有のパターンの解釈と発見を、プロファイラヘッドがいかに改善できるかを実証する。
論文 参考訳(メタデータ) (2024-02-18T23:01:28Z) - Bures-Wasserstein Means of Graphs [60.42414991820453]
本研究では,スムーズなグラフ信号分布の空間への埋め込みを通じて,グラフ平均を定義する新しいフレームワークを提案する。
この埋め込み空間において平均を求めることにより、構造情報を保存する平均グラフを復元することができる。
我々は,新しいグラフの意味の存在と特異性を確立し,それを計算するための反復アルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-05-31T11:04:53Z) - Unboxing Tree Ensembles for interpretability: a hierarchical
visualization tool and a multivariate optimal re-built tree [0.34530027457862006]
我々は,木組モデルの解釈可能な表現を開発し,その振る舞いに関する貴重な洞察を提供する。
提案モデルは,木組決定関数を近似した浅い解釈可能な木を得るのに有効である。
論文 参考訳(メタデータ) (2023-02-15T10:43:31Z) - Bayesian Graph Contrastive Learning [55.36652660268726]
本稿では,ランダムな拡張がエンコーダにつながることを示すグラフコントラスト学習手法の新たな視点を提案する。
提案手法は,各ノードを決定論的ベクトルに埋め込む既存の手法とは対照的に,各ノードを潜在空間の分布で表現する。
いくつかのベンチマークデータセットにおける既存の最先端手法と比較して,性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2021-12-15T01:45:32Z) - Grouped Feature Importance and Combined Features Effect Plot [2.15867006052733]
解釈可能な機械学習は、機械学習アルゴリズムの人気が高まり、研究の活発な領域となっている。
機能グループに対して,既存のモデル非依存手法をどのように定義できるかを包括的に概観し,機能グループの重要性を評価した。
本稿では,特徴のスパースで解釈可能な線形結合に基づいて,特徴群の効果を可視化する手法である複合特徴効果プロットを提案する。
論文 参考訳(メタデータ) (2021-04-23T16:27:38Z) - Out-of-distribution Generalization via Partial Feature Decorrelation [72.96261704851683]
本稿では,特徴分解ネットワークと対象画像分類モデルとを協調的に最適化する,PFDL(Partial Feature Deorrelation Learning)アルゴリズムを提案する。
実世界のデータセットを用いた実験により,OOD画像分類データセットにおけるバックボーンモデルの精度が向上することを示した。
論文 参考訳(メタデータ) (2020-07-30T05:48:48Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。