論文の概要: Double Machine Learning for Adaptive Causal Representation in High-Dimensional Data
- arxiv url: http://arxiv.org/abs/2411.14665v1
- Date: Fri, 22 Nov 2024 01:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:46.735312
- Title: Double Machine Learning for Adaptive Causal Representation in High-Dimensional Data
- Title(参考訳): 高次元データにおける適応因果表現のための二重機械学習
- Authors: Lynda Aouar, Han Yu,
- Abstract要約: サポートポイントサンプル分割(SPSS)は、因果推論において効率的なダブル機械学習(DML)に使用される。
ランダムサンプル中の全生データの最適な代表点として支持点を選択して分割する。
それらは、完全な大きなデータセットの最良の表現を提供するが、従来のランダムデータ分割による基礎となる分布の単位構造情報は、ほとんど保存されない。
- 参考スコア(独自算出の注目度): 14.25379577156518
- License:
- Abstract: Adaptive causal representation learning from observational data is presented, integrated with an efficient sample splitting technique within the semiparametric estimating equation framework. The support points sample splitting (SPSS), a subsampling method based on energy distance, is employed for efficient double machine learning (DML) in causal inference. The support points are selected and split as optimal representative points of the full raw data in a random sample, in contrast to the traditional random splitting, and providing an optimal sub-representation of the underlying data generating distribution. They offer the best representation of a full big dataset, whereas the unit structural information of the underlying distribution via the traditional random data splitting is most likely not preserved. Three machine learning estimators were adopted for causal inference, support vector machine (SVM), deep learning (DL), and a hybrid super learner (SL) with deep learning (SDL), using SPSS. A comparative study is conducted between the proposed SVM, DL, and SDL representations using SPSS, and the benchmark results from Chernozhukov et al. (2018), which employed random forest, neural network, and regression trees with a random k-fold cross-fitting technique on the 401(k)-pension plan real data. The simulations show that DL with SPSS and the hybrid methods of DL and SL with SPSS outperform SVM with SPSS in terms of computational efficiency and the estimation quality, respectively.
- Abstract(参考訳): 観測データから適応因果表現学習を行い,半パラメトリック推定式フレームワーク内の効率的なサンプル分割手法と統合する。
エネルギー距離に基づくサブサンプリング手法であるSPSSは、因果推論において効率的なダブル機械学習(DML)に使用される。
従来の乱分割とは対照的に、ランダムサンプル中の全生データの最適な代表点として支持点を選択して分割し、基礎となるデータ生成分布の最適な部分表現を提供する。
それらは、完全な大きなデータセットの最良の表現を提供するが、従来のランダムデータ分割による基礎となる分布の単位構造情報は、ほとんど保存されない。
SPSSを用いて、因果推論、サポートベクターマシン(SVM)、ディープラーニング(DL)、ハイブリッドスーパーラーナ(SL)の3つの機械学習推定器を採用した。
提案したSVM, DL, SDL表現をSPSSを用いて比較検討し, 401(k)-ペンションプランの実データにランダムk倍のクロスフィット技術を用いたランダム森林, ニューラルネットワーク, レグレッションツリーを用いたChernozhukov et al (2018)のベンチマーク結果と比較した。
シミュレーションの結果,SPSS を用いた DL とSPSS を用いた SL のハイブリッド手法は,SPSS による SVM よりも計算効率と推定品質が優れていた。
関連論文リスト
- On Pretraining Data Diversity for Self-Supervised Learning [57.91495006862553]
我々は、より多様なデータセットを用いたトレーニングが、固定された計算予算の下での自己教師付き学習(SSL)のパフォーマンスに与える影響について検討する。
以上の結果から,事前学習データの多様性の増大はSSL性能を向上させるが,下流データへの分布距離が最小である場合に限る。
論文 参考訳(メタデータ) (2024-03-20T17:59:58Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - Separability and Scatteredness (S&S) Ratio-Based Efficient SVM
Regularization Parameter, Kernel, and Kernel Parameter Selection [10.66048003460524]
Support Vector Machine (SVM)は、分類、回帰、外れ値検出に広く応用された堅牢な機械学習アルゴリズムである。
本研究では,SVMの性能をデータの分離性と分散性(S&S)の関数としてモデル化できることを示す。
論文 参考訳(メタデータ) (2023-05-17T13:51:43Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Approximate Thompson Sampling via Epistemic Neural Networks [26.872304174606278]
てんかん性ニューラルネットワーク(ENN)は、正確な関節の予測分布を生成するように設計されている。
ENNがこの目的をうまく果たし、共同予測分布の質がいかに性能を向上させるかを示す。
論文 参考訳(メタデータ) (2023-02-18T01:58:15Z) - Linking data separation, visual separation, and classifier performance
using pseudo-labeling by contrastive learning [125.99533416395765]
最終分類器の性能は、潜在空間に存在するデータ分離と、射影に存在する視覚的分離に依存すると論じる。
本研究は,ヒト腸管寄生虫の5つの現実的課題の画像データセットを1%の教師付きサンプルで分類し,その結果を実証する。
論文 参考訳(メタデータ) (2023-02-06T10:01:38Z) - Convergence Analysis of Sequential Split Learning on Heterogeneous Data [6.937859054591121]
Split Learning(SL)とFederated Averaging(Fed)は、分散機械学習の2つの一般的なパラダイムである。
不均一なデータに基づいてSL/一般SL/非Avgの収束保証を導出する。
極めて不均一なデータに対して,反直観分析の結果を実証的に検証した。
論文 参考訳(メタデータ) (2023-02-03T10:04:44Z) - Distributed Learning of Generalized Linear Causal Networks [19.381934612280993]
正規化確率スコア(DARLS)に基づく分散焼鈍という構造学習手法を提案する。
DARLSは、そのような理論的保証で因果グラフを学習する最初の方法である。
タンパク質-DNA結合ネットワークを分散ChIPシーケンシングデータでモデル化する現実世界のアプリケーションにおいて、DARLSは他の方法よりも高い予測力を示す。
論文 参考訳(メタデータ) (2022-01-23T06:33:25Z) - SHRIMP: Sparser Random Feature Models via Iterative Magnitude Pruning [3.775565013663731]
IMP (ShRIMP) を用いたスペーサーランダム特徴モデル(スペーサーランダム特徴モデル)を提案する。
提案手法は,2層密集ネットワークにおける疎く宝くじを作成・発見するための複合的なプロセスとみなすことができる。
論文 参考訳(メタデータ) (2021-12-07T21:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。