論文の概要: Estimating Probabilities of Causation with Machine Learning Models
- arxiv url: http://arxiv.org/abs/2502.08858v1
- Date: Thu, 13 Feb 2025 00:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:45.529776
- Title: Estimating Probabilities of Causation with Machine Learning Models
- Title(参考訳): 機械学習モデルによる因果関係の確率の推定
- Authors: Shuai Wang, Ang Li,
- Abstract要約: 本稿では,データ不足を伴うサブ集団に対する因果関係の確率を予測することの課題に対処する。
私たちは、十分なデータでサブポピュレーションから洞察を引き出す機械学習モデルを使用しています。
我々は,Mishアクティベーション関数を持つ多層パーセプトロン(MLP)モデルにおいて,32,768のサブポピュレーションにおいて,平均絶対誤差(MAE)が約0.02であることを示す。
- 参考スコア(独自算出の注目度): 13.50260067414662
- License:
- Abstract: Probabilities of causation play a crucial role in modern decision-making. This paper addresses the challenge of predicting probabilities of causation for subpopulations with insufficient data using machine learning models. Tian and Pearl first defined and derived tight bounds for three fundamental probabilities of causation: the probability of necessity and sufficiency (PNS), the probability of sufficiency (PS), and the probability of necessity (PN). However, estimating these probabilities requires both experimental and observational distributions specific to each subpopulation, which are often unavailable or impractical to obtain with limited population-level data. We assume that the probabilities of causation for each subpopulation are determined by its characteristics. To estimate these probabilities for subpopulations with insufficient data, we propose using machine learning models that draw insights from subpopulations with sufficient data. Our evaluation of multiple machine learning models indicates that, given sufficient population-level data and an appropriate choice of machine learning model and activation function, PNS can be effectively predicted. Through simulation studies, we show that our multilayer perceptron (MLP) model with the Mish activation function achieves a mean absolute error (MAE) of approximately 0.02 in predicting PNS for 32,768 subpopulations using data from around 2,000 subpopulations.
- Abstract(参考訳): 因果関係の確率は、現代の意思決定において重要な役割を果たす。
本稿では、機械学習モデルを用いて、サブ集団の因果関係の確率を予測することの課題に対処する。
ティアンとパールは、まず3つの因果関係の基本的な確率について、必要十分確率(PNS)、満足度確率(PS)、必然確率(PN)について、厳密な境界を定義し、導出した。
しかし、これらの確率を推定するには、各サブポピュレーションに特有の実験的な分布と観察的な分布の両方が必要である。
各サブポピュレーションに対する因果関係の確率はその特性によって決定されると仮定する。
データ不足によるサブポピュレーションの確率を推定するために、十分なデータでサブポピュレーションから洞察を引き出す機械学習モデルを提案する。
複数の機械学習モデルの評価は、十分な人口レベルのデータと、機械学習モデルとアクティベーション関数の適切な選択が与えられた場合、PSNを効果的に予測できることを示唆している。
シミュレーション実験により,Mishアクティベーション関数を用いた多層パーセプトロン(MLP)モデルでは,約2000のサブ集団のデータを用いて,32,768のサブ集団に対するPSNの予測において平均0.02の絶対誤差(MAE)が得られた。
関連論文リスト
- Estimating the Probabilities of Rare Outputs in Language Models [8.585890569162267]
小型変圧器言語モデルからのargmaxサンプリングの文脈における低確率推定について検討した。
その結果、重要サンプリングはアクティベーション外挿より優れるが、どちらもナイーブサンプリングより優れていることがわかった。
低確率推定のための新しい手法は、最悪の場合の性能についてより強力な保証を提供するために必要である、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-17T04:31:18Z) - R-divergence for Estimating Model-oriented Distribution Discrepancy [37.939239477868796]
モデル指向分布の相違性を評価するために設計されたR分割を導入する。
R-発散は混合データ上で最小の仮説を学習し、その間に経験的リスク差を測る。
教師なしタスクおよび教師なしタスクにおけるテストパワーの評価を行い、R分割が最先端のパフォーマンスを達成することを確認する。
論文 参考訳(メタデータ) (2023-10-02T11:30:49Z) - Learning Probabilities of Causation from Finite Population Data [40.99426447422972]
本研究では,有限個体群データに基づくサブ集団に対する因果関係の確率境界の学習を支援する機械学習モデルを提案する。
本研究では, 機械学習モデルを用いて, 人口32768人を対象に, 有限個体群データから約500人分のPSNを学習できることを示す。
論文 参考訳(メタデータ) (2022-10-16T05:46:25Z) - Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。
パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。
自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文 参考訳(メタデータ) (2022-03-24T01:09:46Z) - Deep Probability Estimation [14.659180336823354]
深層ニューラルネットワークを用いた高次元データからの確率推定について検討する。
この研究の目的は、ディープニューラルネットワークを用いた高次元データからの確率推定を調査することである。
合成データおよび実世界の3つの確率推定タスクにおける既存手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-21T03:55:50Z) - Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic
Regression [51.770998056563094]
PGBM(Probabilistic Gradient Boosting Machines)は、確率的予測を生成する手法である。
既存の最先端手法と比較してPGBMの利点を実証的に示す。
論文 参考訳(メタデータ) (2021-06-03T08:32:13Z) - General stochastic separation theorems with optimal bounds [68.8204255655161]
分離性の現象が明らかになり、機械学習で人工知能(AI)システムのエラーを修正し、AI不安定性を分析するために使用された。
エラーやエラーのクラスタは、残りのデータから分離することができる。
AIシステムを修正する能力は、それに対する攻撃の可能性も開き、高次元性は、同じ分離性によって引き起こされる脆弱性を誘発する。
論文 参考訳(メタデータ) (2020-10-11T13:12:41Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。