論文の概要: Causal Feature Selection via Transfer Entropy
- arxiv url: http://arxiv.org/abs/2310.11059v1
- Date: Tue, 17 Oct 2023 08:04:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 17:15:09.254067
- Title: Causal Feature Selection via Transfer Entropy
- Title(参考訳): 伝達エントロピーによる因果的特徴選択
- Authors: Paolo Bonetti, Alberto Maria Metelli, Marcello Restelli
- Abstract要約: 因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
- 参考スコア(独自算出の注目度): 59.999594949050596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning algorithms are designed to capture complex relationships
between features. In this context, the high dimensionality of data often
results in poor model performance, with the risk of overfitting. Feature
selection, the process of selecting a subset of relevant and non-redundant
features, is, therefore, an essential step to mitigate these issues. However,
classical feature selection approaches do not inspect the causal relationship
between selected features and target, which can lead to misleading results in
real-world applications. Causal discovery, instead, aims to identify causal
relationships between features with observational data. In this paper, we
propose a novel methodology at the intersection between feature selection and
causal discovery, focusing on time series. We introduce a new causal feature
selection approach that relies on the forward and backward feature selection
procedures and leverages transfer entropy to estimate the causal flow of
information from the features to the target in time series. Our approach
enables the selection of features not only in terms of mere model performance
but also captures the causal information flow. In this context, we provide
theoretical guarantees on the regression and classification errors for both the
exact and the finite-sample cases. Finally, we present numerical validations on
synthetic and real-world regression problems, showing results competitive
w.r.t. the considered baselines.
- Abstract(参考訳): 機械学習アルゴリズムは機能間の複雑な関係を捉えるように設計されている。
この文脈では、データの高次元性はしばしばモデルの性能が悪く、過度に適合するリスクがある。
機能選択(feature selection)とは、関連する機能と非冗長機能のサブセットを選択するプロセスであり、これらの問題を緩和するための重要なステップである。
しかし、古典的特徴選択手法は、選択した特徴と対象との因果関係を検査せず、現実の応用において誤解を招く可能性がある。
因果発見は、観察データを用いて特徴間の因果関係を識別することを目的としている。
本稿では,時系列に着目した特徴選択と因果発見の交差点における新しい手法を提案する。
本研究では,前向きと後向きの特徴選択手法に依存した新たな因果特徴選択手法を導入し,転送エントロピーを利用して特徴から対象への情報の流れを時系列で推定する。
提案手法は,単にモデルの性能だけでなく,因果情報の流れを捉えた特徴の選択を可能にする。
この文脈では、厳密ケースと有限サンプルケースの両方に対して回帰と分類エラーに関する理論的保証を提供する。
最後に、合成および実世界の回帰問題に関する数値検証を行い、検討されたベースラインと競合する結果を示す。
関連論文リスト
- Towards Robust Text Classification: Mitigating Spurious Correlations with Causal Learning [2.7813683000222653]
本稿では,因果関係へのモデル依存を軽減するために,因果相関ロバスト (CCR) を提案する。
CCRは、逆確率重み付け(IPW)損失関数とともに、反ファクト推論に基づく因果的特徴選択法を統合する。
グループラベルを持たないメソッド間でのCCRの最先端性能を示し、場合によってはグループラベルを利用するモデルと競合する。
論文 参考訳(メタデータ) (2024-11-01T21:29:07Z) - Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - IGANN Sparse: Bridging Sparsity and Interpretability with Non-linear Insight [4.010646933005848]
IGANN Sparseは、一般化された加法モデルのファミリーから生まれた、新しい機械学習モデルである。
トレーニング中の非線形特徴選択プロセスを通じて、スパシティを促進する。
これにより、予測性能を犠牲にすることなく、モデル空間の改善による解釈可能性を保証する。
論文 参考訳(メタデータ) (2024-03-17T22:44:36Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Copula for Instance-wise Feature Selection and Ranking [24.09326839818306]
本稿では,変数間の相関を捉える強力な数学的手法であるガウスコプラを,現在の特徴選択フレームワークに組み込むことを提案する。
提案手法が有意な相関関係を捉えることができることを示すために, 合成データセットと実データセットの双方について, 性能比較と解釈可能性の観点から実験を行った。
論文 参考訳(メタデータ) (2023-08-01T13:45:04Z) - Nonlinear Feature Aggregation: Two Algorithms driven by Theory [45.3190496371625]
現実世界の機械学習アプリケーションは、膨大な機能によって特徴付けられ、計算やメモリの問題を引き起こす。
一般集約関数を用いて特徴量の非線形変換を集約する次元還元アルゴリズム(NonLinCFA)を提案する。
また、アルゴリズムを合成および実世界のデータセット上でテストし、回帰および分類タスクを実行し、競合性能を示す。
論文 参考訳(メタデータ) (2023-06-19T19:57:33Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Decorrelate Irrelevant, Purify Relevant: Overcome Textual Spurious
Correlations from a Feature Perspective [47.10907370311025]
自然言語理解(NLU)モデルは、散発的な相関(すなわちデータセットバイアス)に頼る傾向があり、分布内データセットでは高い性能を得るが、分布外データセットでは性能が劣る。
既存のデバイアス法のほとんどは、バイアスのある特徴を持つサンプルを識別し、弱めていることが多い。
サンプルの重み付けは、サンプルの偏りのない部分から学習する際のモデルを妨げる。
本稿では,特徴空間の観点から,微粒な方法でスプリアス相関を除去することを提案する。
論文 参考訳(メタデータ) (2022-02-16T13:23:14Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。