論文の概要: Learned Causal Method Prediction
- arxiv url: http://arxiv.org/abs/2311.03989v1
- Date: Tue, 7 Nov 2023 13:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 15:22:07.615079
- Title: Learned Causal Method Prediction
- Title(参考訳): 学習因果予測
- Authors: Shantanu Gupta, Cheng Zhang, Agrin Hilmkil
- Abstract要約: 与えられたデータセットに対して最適なメソッドを予測するためのフレームワークであるCAusal Method Predictor (CAMP)を提案する。
我々は、多様な合成因果モデルからデータセットを生成し、候補手法をスコアし、そのデータセットの最高のスコア法を直接予測するようにモデルを訓練する。
我々の戦略は、暗黙のデータセットプロパティをデータ駆動方式で最良のメソッドにマッピングすることを学びました。
- 参考スコア(独自算出の注目度): 10.36548504177628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For a given causal question, it is important to efficiently decide which
causal inference method to use for a given dataset. This is challenging because
causal methods typically rely on complex and difficult-to-verify assumptions,
and cross-validation is not applicable since ground truth causal quantities are
unobserved.In this work, we propose CAusal Method Predictor (CAMP), a framework
for predicting the best method for a given dataset. To this end, we generate
datasets from a diverse set of synthetic causal models, score the candidate
methods, and train a model to directly predict the highest-scoring method for
that dataset. Next, by formulating a self-supervised pre-training objective
centered on dataset assumptions relevant for causal inference, we significantly
reduce the need for costly labeled data and enhance training efficiency. Our
strategy learns to map implicit dataset properties to the best method in a
data-driven manner. In our experiments, we focus on method prediction for
causal discovery. CAMP outperforms selecting any individual candidate method
and demonstrates promising generalization to unseen semi-synthetic and
real-world benchmarks.
- Abstract(参考訳): 因果的疑問に対しては、与えられたデータセットに使用する因果的推論手法を効率的に決定することが重要である。
因果的手法は一般に複雑で検証が難しい仮定に頼っているため,基礎的真理因果的量を観測できないため,クロスバリデーションは適用できないため,本研究では,与えられたデータセットの最良の方法を予測するためのフレームワークであるCausal Method Predictor(CAMP)を提案する。
この目的のために、多様な合成因果モデルからデータセットを生成し、候補手法をスコアし、そのデータセットの最高のスコア法を直接予測するようにモデルを訓練する。
次に、因果推論に関連するデータセットの仮定を中心とした自己指導型事前学習目標を定式化することにより、コストのかかるラベル付きデータの必要性を大幅に低減し、トレーニング効率を向上させる。
我々の戦略は、暗黙のデータセットプロパティをデータ駆動方式で最良のメソッドにマッピングすることを学ぶ。
実験では,因果発見のための手法予測に焦点をあてた。
CAMPは、任意の候補メソッドを選択し、半合成および実世界のベンチマークを目にしないような、有望な一般化を示す。
関連論文リスト
- Data Pruning in Generative Diffusion Models [2.0111637969968]
生成モデルは、データの基盤となる分布を推定することを目的としている。
大規模データセットにおける冗長データやノイズデータの排除は,特に戦略的に行う場合,特に有益であることを示す。
論文 参考訳(メタデータ) (2024-11-19T14:13:25Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。
我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文 参考訳(メタデータ) (2022-02-09T00:21:22Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。