論文の概要: Interpretable Feature Interaction via Statistical Self-supervised Learning on Tabular Data
- arxiv url: http://arxiv.org/abs/2503.18048v1
- Date: Sun, 23 Mar 2025 12:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:39:00.954043
- Title: Interpretable Feature Interaction via Statistical Self-supervised Learning on Tabular Data
- Title(参考訳): 単語データを用いた統計的自己教師型学習による解釈可能な特徴相互作用
- Authors: Xiaochen Zhang, Haoyi Xiong,
- Abstract要約: Spofeは、統計的厳密さによる明確な解釈可能性を達成するために、原則化された表現をキャプチャする、新しい自己教師型機械学習パイプラインである。
このアプローチの基盤となるのは、正確なエラー境界と厳密な偽発見率(FDR)制御を提供する、堅牢な理論フレームワークです。
さまざまな実世界のデータセットの実験は、Spotfeの有効性を実証している。
- 参考スコア(独自算出の注目度): 22.20955211690874
- License:
- Abstract: In high-dimensional and high-stakes contexts, ensuring both rigorous statistical guarantees and interpretability in feature extraction from complex tabular data remains a formidable challenge. Traditional methods such as Principal Component Analysis (PCA) reduce dimensionality and identify key features that explain the most variance, but are constrained by their reliance on linear assumptions. In contrast, neural networks offer assumption-free feature extraction through self-supervised learning techniques such as autoencoders, though their interpretability remains a challenge in fields requiring transparency. To address this gap, this paper introduces Spofe, a novel self-supervised machine learning pipeline that marries the power of kernel principal components for capturing nonlinear dependencies with a sparse and principled polynomial representation to achieve clear interpretability with statistical rigor. Underpinning our approach is a robust theoretical framework that delivers precise error bounds and rigorous false discovery rate (FDR) control via a multi-objective knockoff selection procedure; it effectively bridges the gap between data-driven complexity and statistical reliability via three stages: (1) generating self-supervised signals using kernel principal components to model complex patterns, (2) distilling these signals into sparse polynomial functions for improved interpretability, and (3) applying a multi-objective knockoff selection procedure with significance testing to rigorously identify important features. Extensive experiments on diverse real-world datasets demonstrate the effectiveness of Spofe, consistently surpassing KPCA, SKPCA, and other methods in feature selection for regression and classification tasks. Visualization and case studies highlight its ability to uncover key insights, enhancing interpretability and practical utility.
- Abstract(参考訳): 高次元および高次元の文脈では、複雑な表データからの特徴抽出における厳密な統計的保証と解釈可能性の両方を保証することは、非常に難しい課題である。
主成分分析(PCA)のような従来の手法は次元を減らし、最もばらつきを説明する重要な特徴を識別するが、線形仮定に依存して制約される。
対照的に、ニューラルネットワークはオートエンコーダのような自己教師付き学習技術を通じて仮定のない特徴抽出を提供するが、その解釈性は透明性を必要とする分野において課題である。
このギャップに対処するために,スパースおよび原理多項式表現を用いて非線形依存を捕捉するカーネル主成分のパワーをマージし,統計的厳密性による明瞭な解釈性を実現する,新しい自己教師型機械学習パイプラインであるSpfeを紹介した。
提案手法の基盤は,多目的ノックオフ選択手順による高精度な誤り境界と厳密な偽発見率(FDR)制御を実現する頑健な理論的枠組みであり,1) カーネル主成分を用いた自己教師付き信号の生成と複雑なパターンのモデル化,2) 解釈性向上のための疎多項式関数への分割,3) 多目的ノックオフ選択手順の適用による重要な特徴の明確化,の3段階を通じて,データ駆動の複雑性と統計的信頼性のギャップを効果的に橋渡しする。
多様な実世界のデータセットに対する大規模な実験は、回帰および分類タスクにおける特徴選択におけるKPCA、SKPCA、その他の手法を一貫して超越したスポフェの有効性を示す。
可視化とケーススタディは、重要な洞察を明らかにし、解釈可能性と実用性を高める能力を強調している。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Explaining the Unexplained: Revealing Hidden Correlations for Better Interpretability [1.8274323268621635]
Real Explainer(RealExp)は、Shapley値を個々の特徴と特徴相関の重要度に分解する、解釈可能性の手法である。
RealExpは、個々の特徴とそれらの相互作用を正確に定量化することで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-12-02T10:50:50Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。