論文の概要: Learned Causal Method Prediction
- arxiv url: http://arxiv.org/abs/2311.03989v2
- Date: Wed, 8 Nov 2023 07:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 12:49:34.716219
- Title: Learned Causal Method Prediction
- Title(参考訳): 学習因果予測
- Authors: Shantanu Gupta, Cheng Zhang, Agrin Hilmkil
- Abstract要約: 与えられたデータセットに対して最適なメソッドを予測するためのフレームワークであるCAusal Method Predictor (CAMP)を提案する。
我々は、多様な合成因果モデルからデータセットを生成し、候補手法をスコアし、そのデータセットの最高のスコア法を直接予測するようにモデルを訓練する。
我々の戦略は、暗黙のデータセットプロパティをデータ駆動方式で最良のメソッドにマッピングすることを学びました。
- 参考スコア(独自算出の注目度): 10.36548504177628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For a given causal question, it is important to efficiently decide which
causal inference method to use for a given dataset. This is challenging because
causal methods typically rely on complex and difficult-to-verify assumptions,
and cross-validation is not applicable since ground truth causal quantities are
unobserved. In this work, we propose CAusal Method Predictor (CAMP), a
framework for predicting the best method for a given dataset. To this end, we
generate datasets from a diverse set of synthetic causal models, score the
candidate methods, and train a model to directly predict the highest-scoring
method for that dataset. Next, by formulating a self-supervised pre-training
objective centered on dataset assumptions relevant for causal inference, we
significantly reduce the need for costly labeled data and enhance training
efficiency. Our strategy learns to map implicit dataset properties to the best
method in a data-driven manner. In our experiments, we focus on method
prediction for causal discovery. CAMP outperforms selecting any individual
candidate method and demonstrates promising generalization to unseen
semi-synthetic and real-world benchmarks.
- Abstract(参考訳): 因果的疑問に対しては、与えられたデータセットに使用する因果的推論手法を効率的に決定することが重要である。
因果的手法は一般に複雑で検証が難しい仮定に依存しており、根本的真理因果的量がないため、相互検証は適用できない。
本研究では,与えられたデータセットに対して最適な手法を予測するフレームワークであるcausal method predictor (camp)を提案する。
この目的のために、多様な合成因果モデルからデータセットを生成し、候補手法をスコアし、そのデータセットの最高のスコア法を直接予測するようにモデルを訓練する。
次に、因果推論に関連するデータセットの仮定を中心とした自己指導型事前学習目標を定式化することにより、コストのかかるラベル付きデータの必要性を大幅に低減し、トレーニング効率を向上させる。
我々の戦略は、暗黙のデータセットプロパティをデータ駆動方式で最良のメソッドにマッピングすることを学ぶ。
実験では,因果発見のための手法予測に焦点をあてた。
CAMPは、任意の候補メソッドを選択し、半合成および実世界のベンチマークを目にしないような、有望な一般化を示す。
関連論文リスト
- Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。
我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文 参考訳(メタデータ) (2022-02-09T00:21:22Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Deep Learning with Multiple Data Set: A Weighted Goal Programming
Approach [2.7393821783237184]
大規模データ分析は、我々の社会でデータが増大するにつれて、指数的な速度で成長している。
ディープラーニングモデルはたくさんのリソースを必要とし、分散トレーニングが必要です。
本稿では,分散学習のためのマルチ基準アプローチを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:10:25Z) - Testing for Typicality with Respect to an Ensemble of Learned
Distributions [5.850572971372637]
適合性のよい問題に対する一サンプルのアプローチは、オンラインテストに多大な計算上の利点をもたらす。
この設定において異常データを正しく否定する能力は、ベース分布のモデルの精度に依存する。
既成の正当性問題に対する既存の手法は、基底分布のモデルが学習されたという事実を考慮に入れない。
本稿では,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-11T19:47:46Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。