論文の概要: ExplainerPFN: Towards tabular foundation models for model-free zero-shot feature importance estimations
- arxiv url: http://arxiv.org/abs/2601.23068v1
- Date: Fri, 30 Jan 2026 15:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.524967
- Title: ExplainerPFN: Towards tabular foundation models for model-free zero-shot feature importance estimations
- Title(参考訳): ExplainerPFN:モデルフリーゼロショット特徴重要度推定のための表層基礎モデルに向けて
- Authors: Joao Fonseca, Julia Stoyanovich,
- Abstract要約: ExplainerPFNは、基礎となるモデルや参照説明にアクセスせずにShapley値を推定するためのゼロショットメソッドである。
ExplainerPFN は 2-10 SHAP の例に依存した数発のサロゲート説明器で性能の競争力を発揮することを示す。
- 参考スコア(独自算出の注目度): 15.177865402589122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computing the importance of features in supervised classification tasks is critical for model interpretability. Shapley values are a widely used approach for explaining model predictions, but require direct access to the underlying model, an assumption frequently violated in real-world deployments. Further, even when model access is possible, their exact computation may be prohibitively expensive. We investigate whether meaningful Shapley value estimations can be obtained in a zero-shot setting, using only the input data distribution and no evaluations of the target model. To this end, we introduce ExplainerPFN, a tabular foundation model built on TabPFN that is pretrained on synthetic datasets generated from random structural causal models and supervised using exact or near-exact Shapley values. Once trained, ExplainerPFN predicts feature attributions for unseen tabular datasets without model access, gradients, or example explanations. Our contributions are fourfold: (1) we show that few-shot learning-based explanations can achieve high fidelity to SHAP values with as few as two reference observations; (2) we propose ExplainerPFN, the first zero-shot method for estimating Shapley values without access to the underlying model or reference explanations; (3) we provide an open-source implementation of ExplainerPFN, including the full training pipeline and synthetic data generator; and (4) through extensive experiments on real and synthetic datasets, we show that ExplainerPFN achieves performance competitive with few-shot surrogate explainers that rely on 2-10 SHAP examples.
- Abstract(参考訳): 教師付き分類タスクにおける特徴の重要性の計算は、モデルの解釈可能性にとって重要である。
シェープ値(Shapley value)は、モデル予測を説明するために広く使われているアプローチであるが、現実のデプロイメントにおいてしばしば違反される仮定である、基礎となるモデルに直接アクセスする必要がある。
さらに、モデルアクセスが可能であったとしても、その正確な計算は違法に高価である可能性がある。
入力データ分布のみを用いてゼロショット設定で有意なShapley値推定が可能であるか検討し、対象モデルの評価を行わない。
この目的のために,TabPFN上に構築された表層基礎モデルであるExplainerPFNを導入する。
トレーニングが完了すると、ExplainerPFNは、モデルアクセス、勾配、サンプル説明なしで、目に見えない表形式のデータセットに対する機能属性を予測する。
以下に示すのは,(1) 少数の学習に基づく説明が,2つの参照観測でSHAP値に対して高い忠実性が得られることを示すこと,(2) 基礎となるモデルや参照説明にアクセスせずにシェープ値を推定する最初のゼロショット手法であるExplainerPFNを提案すること,(3) フルトレーニングパイプラインや合成データ生成装置を含むExplainerPFNのオープンソース実装を提供すること,(4) 実データおよび合成データセットに関する広範な実験を通じて,ExplainerPFNが2-10 SHAPの例に依存する少数のサロゲート説明器と競合する性能を実現すること,である。
関連論文リスト
- Does the Model Say What the Data Says? A Simple Heuristic for Model Data Alignment [0.0]
機械学習モデルが学習したデータ構造と一致しているかを評価するためのフレームワークを提案する。
モデル動作を説明することのみに焦点を当てた既存の解釈可能性メソッドとは異なり、我々のアプローチはデータ自体から直接派生したベースラインを確立する。
論文 参考訳(メタデータ) (2025-11-26T21:44:55Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Shapley Marginal Surplus for Strong Models [0.9831489366502301]
我々は、Shapley値がモデル予測の正確な説明であるが、機械学習モデル自体が真のデータ生成プロセス(DGP)の貧弱な説明であることを示している。
そこで,本研究では,特徴量から推定されるモデル空間を抽出する,新しい変数重要度アルゴリズム,Shapley Marginal Surplus for Strong Modelsを導入する。
論文 参考訳(メタデータ) (2024-08-16T17:06:07Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Grouping Shapley Value Feature Importances of Random Forests for
explainable Yield Prediction [0.8543936047647136]
本稿では,特徴群に対して直接計算されたShapley値の概念を説明し,木構造上で効率的に計算するアルゴリズムを提案する。
我々は、グローバルな理解のために多くのローカルな説明を組み合わせてSwarmプロットを設計するための青写真を提供する。
論文 参考訳(メタデータ) (2023-04-14T13:03:33Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Explaining a Series of Models by Propagating Local Feature Attributions [9.66840768820136]
複数の機械学習モデルを含むパイプラインは、多くの領域でパフォーマンスが向上するが、理解が難しい。
Shapley値への接続に基づいて、モデルの複雑なパイプラインを通じてローカル機能属性を伝播させるフレームワークを紹介します。
本フレームワークにより,アルツハイマー病および乳癌の組織学的診断における遺伝子発現特徴群に基づく高次結論の導出が可能となった。
論文 参考訳(メタデータ) (2021-04-30T22:20:58Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - PSD2 Explainable AI Model for Credit Scoring [0.0]
本研究の目的は、信用リスクモデルの予測精度を向上させるための高度な分析手法の開発と試験である。
このプロジェクトは、銀行関連のデータベースに説明可能な機械学習モデルを適用することに焦点を当てている。
論文 参考訳(メタデータ) (2020-11-20T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。