論文の概要: Forest-Guided Clustering -- Shedding Light into the Random Forest Black Box
- arxiv url: http://arxiv.org/abs/2507.19455v1
- Date: Fri, 25 Jul 2025 17:41:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:49.052794
- Title: Forest-Guided Clustering -- Shedding Light into the Random Forest Black Box
- Title(参考訳): 森林誘導クラスタリング - ランダムフォレストブラックボックスに光を放つ
- Authors: Lisa Barros de Andrade e Sousa, Gregor Miller, Ronan Le Gleut, Dominik Thalmeier, Helena Pelin, Marie Piraud,
- Abstract要約: 本研究では、ランダムフォレストにおける局所構造とグローバル構造の両方を、共有決定経路に従ってグループ化するモデル固有の説明可能性手法であるフォレストガイドクラスタリング(FGC)を提案する。
FGCは、モデルの内部ロジックに整合した人間解釈可能なクラスタを生成し、クラスタ固有の、グローバルな特徴重要度スコアを計算して、RF予測に基づく決定ルールを導出する。
AML転写データセットに適用されたFGCは、生物学的にコヒーレントなサブポピュレーションを発見し、共同設立者による疾患関連シグナルを切断し、既知の新しい遺伝子発現パターンを復元した。
- 参考スコア(独自算出の注目度): 0.6652172511473786
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As machine learning models are increasingly deployed in sensitive application areas, the demand for interpretable and trustworthy decision-making has increased. Random Forests (RF), despite their widespread use and strong performance on tabular data, remain difficult to interpret due to their ensemble nature. We present Forest-Guided Clustering (FGC), a model-specific explainability method that reveals both local and global structure in RFs by grouping instances according to shared decision paths. FGC produces human-interpretable clusters aligned with the model's internal logic and computes cluster-specific and global feature importance scores to derive decision rules underlying RF predictions. FGC accurately recovered latent subclass structure on a benchmark dataset and outperformed classical clustering and post-hoc explanation methods. Applied to an AML transcriptomic dataset, FGC uncovered biologically coherent subpopulations, disentangled disease-relevant signals from confounders, and recovered known and novel gene expression patterns. FGC bridges the gap between performance and interpretability by providing structure-aware insights that go beyond feature-level attribution.
- Abstract(参考訳): センシティブなアプリケーション領域に機械学習モデルがますます導入されるにつれて、解釈可能で信頼性の高い意思決定への需要が高まっている。
ランダムフォレスト (RF) は, 広範に利用されており, 表層データの性能も高いにもかかわらず, アンサンブルの性質から解釈が難しいままである。
本稿では,RFの局所的構造と大域的構造を共通決定経路に従ってグループ化するモデル固有の説明可能性手法であるフォレストガイドクラスタリング(FGC)を提案する。
FGCは、モデルの内部ロジックに整合した人間解釈可能なクラスタを生成し、クラスタ固有の、グローバルな特徴重要度スコアを計算して、RF予測に基づく決定ルールを導出する。
FGCは、ベンチマークデータセット上の潜伏サブクラス構造を正確に復元し、古典的なクラスタリングやポストホックな説明方法よりも優れていた。
AML転写データセットに適用されたFGCは、生物学的にコヒーレントなサブポピュレーションを発見し、共同設立者による疾患関連シグナルを切断し、既知の新しい遺伝子発現パターンを復元した。
FGCは、機能レベルの属性を超えた構造を意識した洞察を提供することによって、パフォーマンスと解釈可能性のギャップを埋める。
関連論文リスト
- ReDiSC: A Reparameterized Masked Diffusion Model for Scalable Node Classification with Structured Predictions [64.17845687013434]
本稿では,構造化ノード分類のための構造拡散モデルであるReDiSCを提案する。
本稿では,ReDiSCが最先端のGNN,ラベル伝搬,拡散ベースラインと比較して,優れた,あるいは高い競争力を発揮することを示す。
特にReDiSCは、従来の構造化拡散法が計算制約によって失敗する大規模データセットに効果的にスケールする。
論文 参考訳(メタデータ) (2025-07-19T04:46:53Z) - Learning Decision Trees as Amortized Structure Inference [59.65621207449269]
本稿では,予測決定木アンサンブルを学習するためのハイブリッドアモータイズされた構造推論手法を提案する。
提案手法であるDT-GFNは,標準分類ベンチマークにおける最先端決定木やディープラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T07:05:07Z) - Interaction-Aware Gaussian Weighting for Clustered Federated Learning [58.92159838586751]
フェデレートラーニング(FL)は、プライバシを維持しながらモデルをトレーニングするための分散パラダイムとして登場した。
本稿では,新たなクラスタリングFL法であるFedGWC(Federated Gaussian Weighting Clustering)を提案する。
ベンチマークデータセットを用いた実験により,FedGWCはクラスタの品質と分類精度において,既存のFLアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-05T16:33:36Z) - DeCaf: A Causal Decoupling Framework for OOD Generalization on Node Classification [14.96980804513399]
グラフニューラルネットワーク(GNN)は、分散シフトの影響を受けやすいため、クリティカルドメインの脆弱性やセキュリティ上の問題が発生する。
不変(機能、構造)-ラベルマッピングの学習を目標とする既存の方法は、データ生成プロセスに関する過度に単純化された仮定に依存することが多い。
構造因果モデル(SCM)を用いたより現実的なグラフデータ生成モデルを提案する。
本稿では,非バイアスな特徴ラベルと構造ラベルのマッピングを独立に学習する,カジュアルなデカップリングフレームワークDeCafを提案する。
論文 参考訳(メタデータ) (2024-10-27T00:22:18Z) - Federated unsupervised random forest for privacy-preserving patient
stratification [0.4499833362998487]
教師なしランダムフォレストを用いた新しいマルチオミクスクラスタリング手法を提案する。
我々は、機械学習ベンチマークデータセットとThe Cancer Genome Atlasのがんデータに対するアプローチを検証する。
本手法は病気のサブタイプに関して最先端の手法と競合するが,同時にクラスタの解釈可能性も大幅に向上する。
論文 参考訳(メタデータ) (2024-01-29T12:04:14Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - FSAR: Federated Skeleton-based Action Recognition with Adaptive Topology
Structure and Knowledge Distillation [23.0771949978506]
既存の骨格に基づく行動認識手法は、典型的には集中学習パラダイムに従っており、人間関連のビデオを公開する際にプライバシー上の懸念を生じさせる。
我々は,局所的な機密データにアクセスせずにグローバルに一般化されたモデルを構築することのできる,新しいフェデレート・骨格に基づく行動認識(FSAR)パラダイムを導入する。
論文 参考訳(メタデータ) (2023-06-19T16:18:14Z) - Learning for Transductive Threshold Calibration in Open-World Recognition [83.35320675679122]
グラフニューラルネットワークを用いた高剛性と適応性を有するトランスダクティブしきい値キャリブレーション法であるOpenGCNを導入する。
オープンワールドの視覚認識ベンチマークにおける実験は、オープンワールドのしきい値校正のための既存のポストホック校正方法よりもOpenGCNの方が優れていることを検証する。
論文 参考訳(メタデータ) (2023-05-19T23:52:48Z) - Chaos to Order: A Label Propagation Perspective on Source-Free Domain
Adaptation [8.27771856472078]
我々は、ソースフリードメイン適応(SFDA)のための新しいアプローチであるChaos to Order(CtO)を提示する。
CtOは、セマンティックな信頼性を制約し、ターゲットのサブポピュレーション間でラベル情報を伝達する。
実証的な証拠は、CtOが3つの公開ベンチマークで芸術の状態を上回っていることを示している。
論文 参考訳(メタデータ) (2023-01-20T03:39:35Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Cross-Cluster Weighted Forests [4.9873153106566575]
本稿では,特徴分布に不均一性のあるデータセット内のクラスタ上で学習したランダムフォレスト学習者のアンサンブル効果について考察する。
従来のランダムフォレストアルゴリズムに比べて,k平均等のアルゴリズムによって決定されたクラスタ上で訓練された森林のアンサンブルの構築精度と一般化性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-05-17T04:58:29Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。