論文の概要: Causal Representation Learning from Multimodal Biological Observations
- arxiv url: http://arxiv.org/abs/2411.06518v1
- Date: Sun, 10 Nov 2024 16:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:07:04.610010
- Title: Causal Representation Learning from Multimodal Biological Observations
- Title(参考訳): マルチモーダル生物観測による因果表現学習
- Authors: Yuewen Sun, Lingjing Kong, Guangyi Chen, Loka Li, Gongxu Luo, Zijian Li, Yixuan Zhang, Yujia Zheng, Mengyue Yang, Petar Stojanov, Eran Segal, Eric P. Xing, Kun Zhang,
- Abstract要約: 我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
- 参考スコア(独自算出の注目度): 57.00712157758845
- License:
- Abstract: Prevalent in biological applications (e.g., human phenotype measurements), multimodal datasets can provide valuable insights into the underlying biological mechanisms. However, current machine learning models designed to analyze such datasets still lack interpretability and theoretical guarantees, which are essential to biological applications. Recent advances in causal representation learning have shown promise in uncovering the interpretable latent causal variables with formal theoretical certificates. Unfortunately, existing works for multimodal distributions either rely on restrictive parametric assumptions or provide rather coarse identification results, limiting their applicability to biological research which favors a detailed understanding of the mechanisms. In this work, we aim to develop flexible identification conditions for multimodal data and principled methods to facilitate the understanding of biological datasets. Theoretically, we consider a flexible nonparametric latent distribution (c.f., parametric assumptions in prior work) permitting causal relationships across potentially different modalities. We establish identifiability guarantees for each latent component, extending the subspace identification results from prior work. Our key theoretical ingredient is the structural sparsity of the causal connections among distinct modalities, which, as we will discuss, is natural for a large collection of biological systems. Empirically, we propose a practical framework to instantiate our theoretical insights. We demonstrate the effectiveness of our approach through extensive experiments on both numerical and synthetic datasets. Results on a real-world human phenotype dataset are consistent with established medical research, validating our theoretical and methodological framework.
- Abstract(参考訳): 生物学的応用(例えばヒトの表現型測定)において、マルチモーダルデータセットは、基礎となる生物学的メカニズムに関する貴重な洞察を提供することができる。
しかし、そのようなデータセットを分析するために設計された現在の機械学習モデルは、生物学的応用に不可欠な解釈可能性や理論的保証を欠いている。
因果的表現学習の最近の進歩は、解釈可能な潜在因果的変数を形式的理論的証明で明らかにする可能性を示している。
残念なことに、既存のマルチモーダル分布の研究は制限的なパラメトリックの仮定に依存するか、より粗い識別結果を提供するかのいずれかであり、そのメカニズムの詳細な理解が望まれる生物学的研究への適用性を制限する。
本研究では,生物データセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発することを目的とする。
理論的には、フレキシブルな非パラメトリック潜在分布(例えば、先行作業におけるパラメトリックな仮定)を考えると、潜在的に異なるモダリティにまたがる因果関係が許される。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモダリティ間の因果関係の構造的疎結合である。
理論的洞察をインスタンス化するための実践的な枠組みを実証的に提案する。
数値および合成データセットの広範な実験を通じて,本手法の有効性を実証する。
実世界のヒト表現型データセットの結果は、確立された医学研究と一致しており、我々の理論的および方法論的枠組みを検証している。
関連論文リスト
- Representation-Enhanced Neural Knowledge Integration with Application to Large-Scale Medical Ontology Learning [3.010503480024405]
本稿では,関係型の同時学習を実現するため,理論的に保証されたRENKIという統計フレームワークを提案する。
提案フレームワークは,表現学習出力をニューラルネットワークの初期エンティティ埋め込みに組み込んで,知識グラフのスコア関数を近似する。
ヘテロジニアス関係の存在下での重み付けの効果と、非パラメトリックモデルに表現学習を組み込むことの利点を実証する。
論文 参考訳(メタデータ) (2024-10-09T21:38:48Z) - Learning Discrete Concepts in Latent Hierarchical Models [73.01229236386148]
自然の高次元データから学習する概念は、ヒューマンアライメントと解釈可能な機械学習モデルの構築の可能性を秘めている。
我々は概念を階層的因果モデルを通して関連付けられた離散潜在因果変数として定式化する。
我々は、理論的な主張を合成データ実験で裏付ける。
論文 参考訳(メタデータ) (2024-06-01T18:01:03Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - PhyloGFN: Phylogenetic inference with generative flow networks [57.104166650526416]
本稿では,系統学における2つの中核的問題に対処するための生成フローネットワーク(GFlowNets)の枠組みを紹介する。
GFlowNetsは複雑な構造をサンプリングするのに適しているため、木トポロジー上の多重モード後部分布を探索し、サンプリングするのに自然な選択である。
我々は, 実際のベンチマークデータセット上で, 様々な, 高品質な進化仮説を生成できることを実証した。
論文 参考訳(メタデータ) (2023-10-12T23:46:08Z) - Conditionally Invariant Representation Learning for Disentangling
Cellular Heterogeneity [25.488181126364186]
本稿では,不必要な変数や乱れに条件付き不変な表現を学習するために,ドメインの可変性を活用する新しい手法を提案する。
単細胞ゲノム学におけるデータ統合など,生物の課題に対して本手法を適用した。
具体的には、提案手法は、対象のタスクと無関係なデータバイアスや興味の因果的説明から生物学的信号を解き放つのに役立つ。
論文 参考訳(メタデータ) (2023-07-02T12:52:41Z) - On the Joint Interaction of Models, Data, and Features [82.60073661644435]
本稿では,データとモデル間の相互作用を実験的に解析する新しいツールであるインタラクションテンソルを紹介する。
これらの観測に基づいて,特徴学習のための概念的枠組みを提案する。
この枠組みの下では、一つの仮説に対する期待された精度と一対の仮説に対する合意はどちらも閉形式で導出することができる。
論文 参考訳(メタデータ) (2023-06-07T21:35:26Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Decentralized policy learning with partial observation and mechanical
constraints for multiperson modeling [14.00358511581803]
本稿では,部分的な観察と機械的制約を分散的に表現した逐次生成モデルを提案する。
本手法は実世界のデータを用いて現実的な軌跡を生成するマルチエージェントシミュレータとして利用することができる。
論文 参考訳(メタデータ) (2020-07-07T01:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。