論文の概要: Learning Probabilities of Causation from Finite Population Data
- arxiv url: http://arxiv.org/abs/2505.17133v1
- Date: Thu, 22 May 2025 03:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.595105
- Title: Learning Probabilities of Causation from Finite Population Data
- Title(参考訳): 有限人口データによる因果関係の学習確率
- Authors: Shuai Wang, Song Jiang, Yizhou Sun, Judea Pearl, Ang Li,
- Abstract要約: 本稿では,textbfinsufficientデータを用いたサブポピュレーションにおける因果関係の確率予測の課題について述べる。
十分なデータでサブポピュレーションから洞察を引き出す機械学習モデルを提案する。
複数の機械学習モデルの評価は、人口レベルのデータと機械学習モデルとアクティベーション関数の適切な選択を考えると、PSNを効果的に予測できることを示唆している。
- 参考スコア(独自算出の注目度): 49.05791737581312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Probabilities of causation play a crucial role in modern decision-making. This paper addresses the challenge of predicting probabilities of causation for subpopulations with \textbf{insufficient} data using machine learning models. Tian and Pearl first defined and derived tight bounds for three fundamental probabilities of causation: the probability of necessity and sufficiency (PNS), the probability of sufficiency (PS), and the probability of necessity (PN). However, estimating these probabilities requires both experimental and observational distributions specific to each subpopulation, which are often unavailable or impractical to obtain with limited population-level data. Therefore, for most subgroups, the amount of data they have is not enough to guarantee the accuracy of their probabilities. Hence, to estimate these probabilities for subpopulations with \textbf{insufficient} data, we propose using machine learning models that draw insights from subpopulations with sufficient data. Our evaluation of multiple machine learning models indicates that, given the population-level data and an appropriate choice of machine learning model and activation function, PNS can be effectively predicted. Through simulation studies on multiple Structured Causal Models (SCMs), we show that our multilayer perceptron (MLP) model with the Mish activation function achieves a mean absolute error (MAE) of approximately $0.02$ in predicting PNS for $32,768$ subpopulations across most SCMs using data from only $2,000$ subpopulations with known PNS values.
- Abstract(参考訳): 因果関係の確率は、現代の意思決定において重要な役割を果たす。
本稿では,機械学習モデルを用いた<textbf{insufficient>データを用いたサブポピュレーションにおける因果関係の確率予測の課題について述べる。
ティアンとパールは、まず3つの因果関係の基本的な確率について、必要十分確率(PNS)、満足度確率(PS)、必然確率(PN)について、厳密な境界を定義し、導出した。
しかし、これらの確率を推定するには、各サブポピュレーションに特有の実験的な分布と観察的な分布の両方が必要である。
したがって、ほとんどの部分群では、それらのデータ量はそれらの確率の正確さを保証するには不十分である。
したがって, サブポピュレーションの確率を<textbf{insufficient>データで推定するために, 十分なデータでサブポピュレーションから洞察を引き出す機械学習モデルを提案する。
複数の機械学習モデルの評価は、人口レベルのデータと機械学習モデルとアクティベーション関数の適切な選択を考えると、PSNを効果的に予測できることを示唆している。
マルチ構造化因果モデル(SCM)のシミュレーション研究を通じて、Mishアクティベーション関数を持つ多層パーセプトロン(MLP)モデルが、既知のPNS値を持つ2000ドルサブポピュレーションのデータを用いて、ほとんどのSCMにおいて約0.02ドルのPNS予測誤差(MAE)を3,768ドルのサブポピュレーションで達成していることを示す。
関連論文リスト
- Estimating Probabilities of Causation with Machine Learning Models [13.50260067414662]
本稿では,データ不足を伴うサブ集団に対する因果関係の確率を予測することの課題に対処する。
私たちは、十分なデータでサブポピュレーションから洞察を引き出す機械学習モデルを使用しています。
我々は,Mishアクティベーション関数を持つ多層パーセプトロン(MLP)モデルにおいて,32,768のサブポピュレーションにおいて,平均絶対誤差(MAE)が約0.02であることを示す。
論文 参考訳(メタデータ) (2025-02-13T00:18:08Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - R-divergence for Estimating Model-oriented Distribution Discrepancy [37.939239477868796]
モデル指向分布の相違性を評価するために設計されたR分割を導入する。
R-発散は混合データ上で最小の仮説を学習し、その間に経験的リスク差を測る。
教師なしタスクおよび教師なしタスクにおけるテストパワーの評価を行い、R分割が最先端のパフォーマンスを達成することを確認する。
論文 参考訳(メタデータ) (2023-10-02T11:30:49Z) - Neural Spline Search for Quantile Probabilistic Modeling [35.914279831992964]
パラメトリックな仮定を伴わない観測データ分布を表現するために,非パラメトリックかつデータ駆動型手法であるニューラルスプラインサーチ(NSS)を提案する。
我々は,NASが,合成,実世界の回帰,時系列予測タスクにおいて,従来の手法よりも優れていたことを実証した。
論文 参考訳(メタデータ) (2023-01-12T07:45:28Z) - Learning Probabilities of Causation from Finite Population Data [40.99426447422972]
本研究では,有限個体群データに基づくサブ集団に対する因果関係の確率境界の学習を支援する機械学習モデルを提案する。
本研究では, 機械学習モデルを用いて, 人口32768人を対象に, 有限個体群データから約500人分のPSNを学習できることを示す。
論文 参考訳(メタデータ) (2022-10-16T05:46:25Z) - Learning Multivariate CDFs and Copulas using Tensor Factorization [39.24470798045442]
データの多変量分布を学習することは、統計学と機械学習における中核的な課題である。
本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにすることを目的とする。
混合確率変数の合同CDFの任意のグリッドサンプリング版は、単純ベイズモデルとして普遍表現を許容することを示す。
提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。
論文 参考訳(メタデータ) (2022-10-13T16:18:46Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - General stochastic separation theorems with optimal bounds [68.8204255655161]
分離性の現象が明らかになり、機械学習で人工知能(AI)システムのエラーを修正し、AI不安定性を分析するために使用された。
エラーやエラーのクラスタは、残りのデータから分離することができる。
AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、同じ分離性によって引き起こされる脆弱性を誘発する。
論文 参考訳(メタデータ) (2020-10-11T13:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。