論文の概要: Information-theoretic Quantification of High-order Feature Effects in Classification Problems
- arxiv url: http://arxiv.org/abs/2507.04362v1
- Date: Sun, 06 Jul 2025 11:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.139426
- Title: Information-theoretic Quantification of High-order Feature Effects in Classification Problems
- Title(参考訳): 分類問題における高次特徴量の情報理論的定量化
- Authors: Ivan Lazic, Chiara Barà, Marta Iovino, Sebastiano Stramaglia, Niksa Jakovljevic, Luca Faes,
- Abstract要約: 特徴重要度(Hi-Fi)法における高次相互作用の情報理論拡張について述べる。
私たちのフレームワークは、機能のコントリビューションをユニークでシナジスティックで冗長なコンポーネントに分解します。
その結果,提案した推定器は理論的および予測された結果を正確に復元することがわかった。
- 参考スコア(独自算出の注目度): 0.19791587637442676
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the contribution of individual features in predictive models remains a central goal in interpretable machine learning, and while many model-agnostic methods exist to estimate feature importance, they often fall short in capturing high-order interactions and disentangling overlapping contributions. In this work, we present an information-theoretic extension of the High-order interactions for Feature importance (Hi-Fi) method, leveraging Conditional Mutual Information (CMI) estimated via a k-Nearest Neighbor (kNN) approach working on mixed discrete and continuous random variables. Our framework decomposes feature contributions into unique, synergistic, and redundant components, offering a richer, model-independent understanding of their predictive roles. We validate the method using synthetic datasets with known Gaussian structures, where ground truth interaction patterns are analytically derived, and further test it on non-Gaussian and real-world gene expression data from TCGA-BRCA. Results indicate that the proposed estimator accurately recovers theoretical and expected findings, providing a potential use case for developing feature selection algorithms or model development based on interaction analysis.
- Abstract(参考訳): 予測モデルにおける個々の特徴の寄与を理解することは、解釈可能な機械学習における中心的な目標であり、多くのモデルに依存しない手法が特徴の重要性を推定する一方で、高次相互作用のキャプチャや重なり合う貢献の解消に不足することが多い。
本研究では,k-Nearest Neighbor (kNN) アプローチを用いて推定した条件付き相互情報(CMI)を利用して,離散変数と連続変数を混合した高次相互作用(Hi-Fi)法を拡張した。
私たちのフレームワークは、機能のコントリビューションをユニークでシナジスティックで冗長なコンポーネントに分解し、よりリッチでモデルに依存しない予測的役割の理解を提供します。
本手法は, 地上の真理相互作用パターンを解析的に導出したガウス構造を持つ合成データセットを用いて検証し, TCGA-BRCAの非ガウス的および実世界の遺伝子発現データを用いてさらに検証する。
その結果,提案した推定器は理論的および予測された結果を正確に復元し,インタラクション分析に基づく特徴選択アルゴリズムやモデル開発に活用できる可能性が示唆された。
関連論文リスト
- Accurate and Uncertainty-Aware Multi-Task Prediction of HEA Properties Using Prior-Guided Deep Gaussian Processes [0.48370725368505757]
本研究では、従来のガウス過程(cGP)、ディープガウス過程(DGP)、マルチ出力回帰のためのエンコーダデコーダニューラルネットワーク、およびAlCoCrCuFeMnNiV HEAシステムの実験および計算特性のハイブリッドデータセットに適用したXGBoostの適合性能を系統的に評価した。
論文 参考訳(メタデータ) (2025-06-13T17:40:21Z) - SPIN: SE(3)-Invariant Physics Informed Network for Binding Affinity Prediction [3.406882192023597]
タンパク質-リガンド結合親和性の正確な予測は、薬物開発に不可欠である。
伝統的な手法は、しばしば複合体の空間情報を正確にモデル化するのに失敗する。
この課題に適用可能な様々な帰納バイアスを組み込んだモデルSPINを提案する。
論文 参考訳(メタデータ) (2024-07-10T08:40:07Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - Spatio-temporally separable non-linear latent factor learning: an
application to somatomotor cortex fMRI data [0.0]
潜在因子の脳全体の発見が可能なfMRIデータのモデルについて検討する。
空間重み付けを効率化するための新しい手法は、データの高次元性とノイズの存在に対処するために重要である。
本手法は,複数のモーターサブタスクを用いたデータを用いて,モデルが各サブタスクに対応する非絡み合った潜在因子を捕捉するかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-26T21:30:22Z) - Hybrid Feature- and Similarity-Based Models for Prediction and
Interpretation using Large-Scale Observational Data [0.0]
教師付き学習のためのハイブリッド機能と類似性に基づくモデルを提案する。
提案したハイブリッドモデルは,カーネル部分の疎性誘導ペナルティを伴う凸最適化に適合する。
我々は,本モデルと,合成データを用いた特徴的および類似性に基づくアプローチとを比較し,孤独感や社会的孤立のリスクを予測するためにEHRデータを用いた。
論文 参考訳(メタデータ) (2022-04-12T20:37:03Z) - Functional Mixtures-of-Experts [0.24578723416255746]
観測対象が関数を含む状況下での予測のための異種データの統計的解析について検討する。
まず,機能的ME(FME)と呼ばれる新しいMEモデルのファミリーを提示する。
我々は,モデルに適合する最大パラメータ推定戦略を定式化したLasso-like (EM-Lasso) の専用予測-最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-04T17:32:28Z) - Learning Neural Causal Models with Active Interventions [83.44636110899742]
本稿では,データ生成プロセスの根底にある因果構造を素早く識別する能動的介入ターゲット機構を提案する。
本手法は,ランダムな介入ターゲティングと比較して,要求される対話回数を大幅に削減する。
シミュレーションデータから実世界のデータまで,複数のベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-06T13:10:37Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。