論文の概要: Non-parametric Conditional Independence Testing for Mixed
Continuous-Categorical Variables: A Novel Method and Numerical Evaluation
- arxiv url: http://arxiv.org/abs/2310.11132v2
- Date: Sun, 5 Nov 2023 10:11:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:13:10.121907
- Title: Non-parametric Conditional Independence Testing for Mixed
Continuous-Categorical Variables: A Novel Method and Numerical Evaluation
- Title(参考訳): 混合連続類型変数に対する非パラメトリック条件独立性テスト:新しい手法と数値評価
- Authors: Oana-Iuliana Popescu, Andreas Gerhardus, Jakob Runge
- Abstract要約: 条件独立テスト(CIT)は機械学習において一般的なタスクである。
多くの実世界のアプリケーションは、数値変数と分類変数を含む混合型データセットを含んでいる。
分類変数を数値として扱わない従来のアプローチのバリエーションを提案する。
- 参考スコア(独自算出の注目度): 14.993705256147189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional independence testing (CIT) is a common task in machine learning,
e.g., for variable selection, and a main component of constraint-based causal
discovery. While most current CIT approaches assume that all variables are
numerical or all variables are categorical, many real-world applications
involve mixed-type datasets that include numerical and categorical variables.
Non-parametric CIT can be conducted using conditional mutual information (CMI)
estimators combined with a local permutation scheme. Recently, two novel CMI
estimators for mixed-type datasets based on k-nearest-neighbors (k-NN) have
been proposed. As with any k-NN method, these estimators rely on the definition
of a distance metric. One approach computes distances by a one-hot encoding of
the categorical variables, essentially treating categorical variables as
discrete-numerical, while the other expresses CMI by entropy terms where the
categorical variables appear as conditions only. In this work, we study these
estimators and propose a variation of the former approach that does not treat
categorical variables as numeric. Our numerical experiments show that our
variant detects dependencies more robustly across different data distributions
and preprocessing types.
- Abstract(参考訳): 条件独立テスト(CIT)は、例えば変数選択のための機械学習において一般的なタスクであり、制約ベースの因果探索の主要なコンポーネントである。
現在のほとんどのCITアプローチでは、全ての変数は数値的であるか、あるいは全ての変数は分類型であると仮定しているが、現実の多くのアプリケーションは数値と分類型を含む混合型データセットを含んでいる。
非パラメトリックCITは、条件付き相互情報(CMI)推定器と局所的な置換スキームを組み合わせて行うことができる。
近年,k-nearest-neighbors(k-NN)に基づく混合型データセットに対する2つの新しいCMI推定器が提案されている。
任意のk-NN法と同様に、これらの推定子は距離計量の定義に依存する。
あるアプローチはカテゴリ変数の1ホット符号化によって距離を計算し、本質的にはカテゴリ変数を離散数値として扱い、もう一方はカテゴリ変数が条件のみとして現れるエントロピー項でCMIを表現する。
本研究では,これらの推定器について検討し,分類変数を数値として扱わない前者のアプローチのバリエーションを提案する。
数値実験により,異なるデータ分布と前処理型にまたがる依存性をより頑健に検出できることを示した。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments [67.80453452949303]
観察データから条件平均治療効果(CATE)を推定することは、パーソナライズされた医療など多くの応用に関係している。
ここでは、観測データが複数の環境からやってくる広範囲な環境に焦点を当てる。
任意の機械学習モデルと組み合わせて使用可能な境界を推定するために、異なるモデルに依存しない学習者(いわゆるメタ学習者)を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:31:43Z) - CAVIAR: Categorical-Variable Embeddings for Accurate and Robust Inference [0.2209921757303168]
社会科学の研究は、しばしば分類変数と結果の関係に頼っている。
本稿では,高次元空間における値を仮定するカテゴリ変数を埋め込む新しい手法であるCAVIARを紹介する。
論文 参考訳(メタデータ) (2024-04-07T14:47:07Z) - Gower's similarity coefficients with automatic weight selection [0.0]
混合型変数に対する最も一般的な相似性は、ゴーワーの類似性係数の1つを補うものとして導かれる。
重み付けスキームに関する議論は、しばしば非重み付けの「標準」設定が全体の相似性に対する単一の変数の不均衡な寄与を隠すことを無視するので、誤解を招くことがある。
この欠点は、各寄与相違性と結果の重み付け相違との相関関係を最小化する重み付けスキームを導入するという最近の考え方に倣って解決される。
論文 参考訳(メタデータ) (2024-01-30T14:21:56Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - Linear Discriminant Analysis with High-dimensional Mixed Variables [10.774094462083843]
本稿では,混合変数を用いた高次元観測の分類手法を提案する。
データを指数関数的に多くのセルに分割するという課題を克服する。
推定精度と誤分類率に関する結果が確立される。
論文 参考訳(メタデータ) (2021-12-14T03:57:56Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z) - An Embedded Model Estimator for Non-Stationary Random Functions using
Multiple Secondary Variables [0.0]
本稿では,本手法を導入し,地理的モデリングや量子ランダムフォレストに適用した結果と自然に類似した一貫性を有することを示す。
このアルゴリズムは、各ターゲット位置におけるターゲット変数の条件分布を推定することで機能する。
論文 参考訳(メタデータ) (2020-11-09T00:14:24Z) - $\ell_0$-based Sparse Canonical Correlation Analysis [7.073210405344709]
正準相関解析(CCA)モデルは、2つの変数の集合間の関連を研究する上で強力である。
その成功にもかかわらず、CCAモデルは、いずれかのモダリティにおける変数数がサンプル数を超えた場合、壊れる可能性がある。
本稿では,2つのモードのスパース部分集合に基づく相関表現の学習法である $ell_0$-CCA を提案する。
論文 参考訳(メタデータ) (2020-10-12T11:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。