論文の概要: A causal view on compositional data
- arxiv url: http://arxiv.org/abs/2106.11234v1
- Date: Mon, 21 Jun 2021 16:29:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:40:45.925601
- Title: A causal view on compositional data
- Title(参考訳): 構成データに関する因果的視点
- Authors: Elisabeth Ailer, Christian L. M\"uller, Niki Kilbertus
- Abstract要約: 組成データには、生態学における種数、地質学における岩石組成、大規模テキストコーパスにおけるトピック組成、分子生物学におけるシークエンシングカウントデータが含まれる。
ここでは、構成が原因となる機器変数設定において、構成データに対する因果的視点を提供する。
- 参考スコア(独自算出の注目度): 4.257168718582631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many scientific datasets are compositional in nature. Important examples
include species abundances in ecology, rock compositions in geology, topic
compositions in large-scale text corpora, and sequencing count data in
molecular biology. Here, we provide a causal view on compositional data in an
instrumental variable setting where the composition acts as the cause.
Throughout, we pay particular attention to the interpretation of compositional
causes from the viewpoint of interventions and crisply articulate potential
pitfalls for practitioners. Focusing on modern high-dimensional microbiome
sequencing data as a timely illustrative use case, our analysis first reveals
that popular one-dimensional information-theoretic summary statistics, such as
diversity and richness, may be insufficient for drawing causal conclusions from
ecological data. Instead, we advocate for multivariate alternatives using
statistical data transformations and regression techniques that take the
special structure of the compositional sample space into account. In a
comparative analysis on synthetic and semi-synthetic data we show the
advantages and limitations of our proposal. We posit that our framework may
provide a useful starting point for cause-effect estimation in the context of
compositional data.
- Abstract(参考訳): 多くの科学データセットは自然に構成されている。
重要な例としては、生態学における種数、地質学における岩石組成、大規模テキストコーパスにおけるトピック組成、分子生物学におけるシークエンシング数データなどがある。
ここでは,合成が原因として作用するインストゥルメンタル変数設定において,合成データの因果的視点を示す。
全体としては、介入の観点から構成的原因の解釈に特に注目し、実践者にとっての潜在的な落とし穴を微妙に明確化する。
現代の高次元マイクロバイオームシークエンシングデータをタイムリーな応用事例として分析した結果, 多様性や豊かさといった1次元情報理論的な要約統計は, 生態学的データから因果的結論を導き出すには不十分であることが明らかとなった。
代わりに,合成サンプル空間の特殊構造を考慮した統計データ変換と回帰手法を用いて,多変量代替案を提唱する。
合成データと半合成データの比較分析では,提案手法の利点と限界が示された。
我々は,本フレームワークが,構成データの文脈における原因影響推定に有用な出発点となることを示唆する。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments [67.80453452949303]
観察データから条件平均治療効果(CATE)を推定することは、パーソナライズされた医療など多くの応用に関係している。
ここでは、観測データが複数の環境からやってくる広範囲な環境に焦点を当てる。
任意の機械学習モデルと組み合わせて使用可能な境界を推定するために、異なるモデルに依存しない学習者(いわゆるメタ学習者)を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:31:43Z) - Domain adaptation in small-scale and heterogeneous biological datasets [0.0]
生物研究におけるドメイン適応のメリットと課題について論じる。
計算生物学者のツールキットにドメイン適応技術を導入することについて論じる。
論文 参考訳(メタデータ) (2024-05-29T16:01:15Z) - Perturbation-based Effect Measures for Compositional Data [3.9543275888781224]
構成的特徴に対する既存の効果測定は、現代の多くの応用には不十分である。
両問題に対処する仮説データ摂動に基づくフレームワークを提案する。
摂動依存再パラメータ化を導出することにより, 摂動効果の平均を効率的に推定できることを示す。
論文 参考訳(メタデータ) (2023-11-30T12:27:15Z) - A Causal Framework for Decomposing Spurious Variations [68.12191782657437]
我々はマルコフモデルとセミマルコフモデルの急激な変分を分解するツールを開発する。
突発効果の非パラメトリック分解を可能にする最初の結果を証明する。
説明可能なAIや公平なAIから、疫学や医学における疑問まで、いくつかの応用がある。
論文 参考訳(メタデータ) (2023-06-08T09:40:28Z) - Supervised Learning and Model Analysis with Compositional Data [4.082799056366927]
KernelBiomeはカーネルベースの非パラメトリック回帰分類フレームワークである。
我々は、最先端の機械学習手法と比較して、同等または改善された性能を示す。
論文 参考訳(メタデータ) (2022-05-15T12:33:43Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Statistical Analytics and Regional Representation Learning for COVID-19
Pandemic Understanding [4.731074162093199]
新型コロナウイルスの感染拡大が世界のほぼすべての国に深刻な影響を与えている。
本稿では、統一された情報ソースを提供するために、公開データセットの広範なコレクションを統合し、処理する。
本研究では,予測イベントモデリングのために,DoubleWindowLSTM-CPと呼ばれる特定のRNNベースの推論パイプラインを提案する。
論文 参考訳(メタデータ) (2020-08-08T03:35:16Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。