論文の概要: Perturbation-based Analysis of Compositional Data
- arxiv url: http://arxiv.org/abs/2311.18501v1
- Date: Thu, 30 Nov 2023 12:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 16:44:35.573968
- Title: Perturbation-based Analysis of Compositional Data
- Title(参考訳): 摂動に基づく組成データの解析
- Authors: Anton Rask Lundborg and Niklas Pfister
- Abstract要約: 合成データ解析のための仮説データ摂動に基づくフレームワークを提案する。
摂動依存再パラメータ化を導出することにより, 摂動効果の平均を効率的に推定できることを示す。
本研究は,米国国勢調査および微生物叢データにおけるシミュレーションデータと既存手法の利点を実証的に分析する。
- 参考スコア(独自算出の注目度): 4.671514210175652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing statistical methods for compositional data analysis are inadequate
for many modern applications for two reasons. First, modern compositional
datasets, for example in microbiome research, display traits such as
high-dimensionality and sparsity that are poorly modelled with traditional
approaches. Second, assessing -- in an unbiased way -- how summary statistics
of a composition (e.g., racial diversity) affect a response variable is not
straightforward. In this work, we propose a framework based on hypothetical
data perturbations that addresses both issues. Unlike existing methods for
compositional data, we do not transform the data and instead use perturbations
to define interpretable statistical functionals on the compositions themselves,
which we call average perturbation effects. These average perturbation effects,
which can be employed in many applications, naturally account for confounding
that biases frequently used marginal dependence analyses. We show how average
perturbation effects can be estimated efficiently by deriving a
perturbation-dependent reparametrization and applying semiparametric estimation
techniques. We analyze the proposed estimators empirically on simulated data
and demonstrate advantages over existing techniques on US census and microbiome
data. For all proposed estimators, we provide confidence intervals with uniform
asymptotic coverage guarantees.
- Abstract(参考訳): 構成データ解析のための既存の統計手法は2つの理由から、現代の多くの応用には不十分である。
第一に、例えばマイクロバイオームの研究では、従来のアプローチではモデル化が不十分な高次元性や空間性などの特性を示す。
第二に、構成の要約統計(例えば、人種の多様性)が応答変数にどのように影響するかを、バイアスのない方法で評価することは簡単ではない。
本研究では,両問題に対処する仮説的データ摂動に基づくフレームワークを提案する。
既存の合成データの方法とは異なり、データ変換ではなく摂動を用いて合成自体の解釈可能な統計関数を定義し、平均摂動効果と呼ぶ。
これらの平均摂動効果は、多くの応用に応用できるが、偏りが辺縁依存分析を頻繁に使用することを前提としている。
摂動依存再パラメータ化を導出し, 半パラメトリック推定手法を適用することにより, 平均摂動効果を効率的に推定できることを示す。
シミュレーションデータに基づいて提案した推定器を実験的に分析し,アメリカにおけるセンサスおよび微生物叢データに対する既存手法の利点を実証した。
提案する推定値のすべてに対して,一様漸近的カバレッジ保証を伴う信頼区間を提供する。
関連論文リスト
- Causal Effect Estimation from Observational and Interventional Data
Through Matrix Weighted Linear Estimators [11.384045395629123]
本研究では,観測データと介入データの混合から因果効果を推定する。
予測二乗誤差の統計的効率は推定器を組み合わせることで向上できることを示す。
論文 参考訳(メタデータ) (2023-06-09T16:16:53Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - A Data-Driven Method for Automated Data Superposition with Applications
in Soft Matter Science [0.0]
我々は任意の座標変換で実験データを重畳するデータ駆動非パラメトリック法を開発した。
本手法は, 材料分類, 設計, 発見などの応用を通知する, 解釈可能なデータ駆動モデルを生成する。
論文 参考訳(メタデータ) (2022-04-20T14:58:04Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Evaluating Causal Inference Methods [0.4588028371034407]
我々は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入する。
我々の研究は、因果推論手法を検証するために、深層生成モデルに基づくフレームワーク、クレデンスを導入している。
論文 参考訳(メタデータ) (2022-02-09T00:21:22Z) - Efficient Multidimensional Functional Data Analysis Using Marginal
Product Basis Systems [2.4554686192257424]
多次元関数データのサンプルから連続表現を学習するためのフレームワークを提案する。
本研究では, テンソル分解により, 得られた推定問題を効率的に解けることを示す。
我々は、ニューロイメージングにおける真のデータ応用で締めくくっている。
論文 参考訳(メタデータ) (2021-07-30T16:02:15Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。