論文の概要: Perturbation-based Effect Measures for Compositional Data
- arxiv url: http://arxiv.org/abs/2311.18501v2
- Date: Tue, 18 Jun 2024 12:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 04:44:38.322270
- Title: Perturbation-based Effect Measures for Compositional Data
- Title(参考訳): 摂動に基づく構成データへの影響対策
- Authors: Anton Rask Lundborg, Niklas Pfister,
- Abstract要約: 構成的特徴に対する既存の効果測定は、現代の多くの応用には不十分である。
両問題に対処する仮説データ摂動に基づくフレームワークを提案する。
摂動依存再パラメータ化を導出することにより, 摂動効果の平均を効率的に推定できることを示す。
- 参考スコア(独自算出の注目度): 3.9543275888781224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing effect measures for compositional features are inadequate for many modern applications for two reasons. First, modern datasets with compositional covariates, for example in microbiome research, display traits such as high-dimensionality and sparsity that can be poorly modelled with traditional parametric approaches. Second, assessing -- in an unbiased way -- how summary statistics of a composition (e.g., racial diversity) affect a response variable is not straightforward. In this work, we propose a framework based on hypothetical data perturbations that addresses both issues. Unlike many existing effect measures for compositional features, we do not define our effects based on a parametric model or a transformation of the data. Instead, we use perturbations to define interpretable statistical functionals on the compositions themselves, which we call average perturbation effects. These effects naturally account for confounding that biases frequently used marginal dependence analyses. We show how average perturbation effects can be estimated efficiently by deriving a perturbation-dependent reparametrization and applying semiparametric estimation techniques. We analyze the proposed estimators empirically on simulated and semi-synthetic data and demonstrate advantages over existing techniques on data from New York schools and microbiome data. For all proposed estimators, we provide confidence intervals with uniform asymptotic coverage guarantees.
- Abstract(参考訳): 構成的特徴に対する既存の効果測定は、2つの理由から現代の多くの応用には不十分である。
第一に、例えば微生物学的研究において、構成共変量を持つ現代のデータセットは、従来のパラメトリックなアプローチではモデル化が不十分な高次元性や空間性などの特性を示す。
第2に、組成(例えば人種の多様性)の要約統計が応答変数にどのように影響するかを、偏見のない方法で評価することは簡単ではない。
本研究では,両問題に対処する仮説的データ摂動に基づくフレームワークを提案する。
構成的特徴に対する既存の多くの効果尺度とは異なり、パラメトリックモデルやデータの変換に基づいて、我々の効果を定義しない。
代わりに、摂動を用いて合成自体の解釈可能な統計関数を定義し、平均摂動効果と呼ぶ。
これらの効果は、バイアスが境界依存分析を頻繁に使用するという欠点を自然に説明できる。
摂動依存再パラメータ化を導出し, 半パラメトリック推定手法を適用することにより, 平均摂動効果を効率的に推定できることを示す。
シミュレーションおよび半合成データに基づいて提案した推定器を実証的に分析し,ニューヨークの学校やマイクロバイオームのデータに対する既存の手法よりも優れていることを示す。
提案したすべての推定器に対して、一様漸近的カバレッジ保証を伴う信頼区間を提供する。
関連論文リスト
- Assumption-Lean Post-Integrated Inference with Negative Control Outcomes [0.0]
負の制御結果を用いて遅延不均一性を調整する頑健なポストインテグレート推論(PII)手法を提案する。
我々の仮定リーン半推論手法は、仲介者、共同設立者、モデレーターを考慮に入れた予測された直接効果推定に頑健さと一般性を広げる。
提案した二重頑健な推定器は最小限の仮定の下で一貫性があり、機械学習アルゴリズムによるデータ適応推定を容易にする。
論文 参考訳(メタデータ) (2024-10-07T12:52:38Z) - Debiased high-dimensional regression calibration for errors-in-variables log-contrast models [0.999726509256195]
腸内マイクロバイオームとメダゲノミクスデータを分析する上での課題により,高次元回帰モデルにおける測定誤差の問題に対処することを目的としている。
本稿では,誤測定や汚染データの影響を受け,高次元構成データに対する統計的推測を行うための先駆的な取り組みを示す。
論文 参考訳(メタデータ) (2024-09-11T18:47:28Z) - Double Machine Learning meets Panel Data -- Promises, Pitfalls, and Potential Solutions [0.0]
機械学習(ML)アルゴリズムを用いた因果効果の推定は、適切なフレームワークで使用すれば、機能的なフォーム仮定を緩和するのに役立ちます。
我々は、観測されていない異種性の存在下で、パネルデータに機械学習(DML)を適用する方法を示す。
また、観測された共同設立者に対する観測されていない異種性の影響が、ほとんどの代替手法の性能に重要な役割を担っていることも示している。
論文 参考訳(メタデータ) (2024-09-02T13:59:54Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z) - Nonparametric inference for interventional effects with multiple
mediators [0.0]
より柔軟で、おそらく機械学習に基づく推定技術を可能にする理論を提供する。
提案した推定器の複数のロバスト性特性を示す。
本研究は, 介入媒介効果の推定において, 最新の統計的学習手法を活用する手段を提供する。
論文 参考訳(メタデータ) (2020-01-16T19:05:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。