論文の概要: Supervised Learning and Model Analysis with Compositional Data
- arxiv url: http://arxiv.org/abs/2205.07271v1
- Date: Sun, 15 May 2022 12:33:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 15:02:09.387114
- Title: Supervised Learning and Model Analysis with Compositional Data
- Title(参考訳): 構成データを用いた教師付き学習とモデル解析
- Authors: Shimeng Huang, Elisabeth Ailer, Niki Kilbertus, Niklas Pfister
- Abstract要約: KernelBiomeはカーネルベースの非パラメトリック回帰分類フレームワークである。
我々は、最先端の機械学習手法と比較して、同等または改善された性能を示す。
- 参考スコア(独自算出の注目度): 4.082799056366927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The compositionality and sparsity of high-throughput sequencing data poses a
challenge for regression and classification. However, in microbiome research in
particular, conditional modeling is an essential tool to investigate
relationships between phenotypes and the microbiome. Existing techniques are
often inadequate: they either rely on extensions of the linear log-contrast
model (which adjusts for compositionality, but is often unable to capture
useful signals), or they are based on black-box machine learning methods (which
may capture useful signals, but ignore compositionality in downstream
analyses).
We propose KernelBiome, a kernel-based nonparametric regression and
classification framework for compositional data. It is tailored to sparse
compositional data and is able to incorporate prior knowledge, such as
phylogenetic structure. KernelBiome captures complex signals, including in the
zero-structure, while automatically adapting model complexity. We demonstrate
on par or improved predictive performance compared with state-of-the-art
machine learning methods. Additionally, our framework provides two key
advantages: (i) We propose two novel quantities to interpret contributions of
individual components and prove that they consistently estimate average
perturbation effects of the conditional mean, extending the interpretability of
linear log-contrast models to nonparametric models. (ii) We show that the
connection between kernels and distances aids interpretability and provides a
data-driven embedding that can augment further analysis. Finally, we apply the
KernelBiome framework to two public microbiome studies and illustrate the
proposed model analysis. KernelBiome is available as an open-source Python
package at https://github.com/shimenghuang/KernelBiome.
- Abstract(参考訳): 高スループットのシークエンシングデータの合成性とスパース性は、回帰と分類の課題となる。
しかし、特に微生物学的研究において、条件モデリングは表現型と微生物の関係を調査するための重要なツールである。
既存の技術は、しばしば不十分である:それらは線形対数コントラストモデルの拡張(構成性を調整するが、有用な信号をキャプチャできないことが多い)に依存するか、あるいはブラックボックスの機械学習手法(有用な信号をキャプチャするが、下流分析では構成性を無視する)に基づいている。
コンポジションデータのためのカーネルベースの非パラメトリック回帰および分類フレームワークであるKernelBiomeを提案する。
構成データを疎結合に調整し、系統構造のような事前の知識を組み込むことができる。
KernelBiomeはゼロ構造を含む複雑な信号をキャプチャし、モデルの複雑さを自動的に適応する。
最先端の機械学習手法と比較して,予測性能の向上や性能向上を実証する。
さらに、我々のフレームワークには2つの大きな利点があります。
(i)個々の成分の寄与を解釈する2つの新しい量を提案し,条件付き平均の平均摂動効果を一貫して推定し,線形対数コントラストモデルの非パラメトリックモデルへの解釈可能性を拡張する。
(II)カーネルと距離の接続は解釈可能性に寄与し,さらなる解析を増強するデータ駆動型埋め込みを提供することを示す。
最後に,2つの公衆マイクロバイオーム研究にkernelbiomeフレームワークを適用し,提案するモデル解析について述べる。
KernelBiomeはオープンソースのPythonパッケージとしてhttps://github.com/shimenghuang/KernelBiomeで入手できる。
関連論文リスト
- Graph Representation Learning Strategies for Omics Data: A Case Study on Parkinson's Disease [13.630617713928197]
グラフニューラルネットワークは、古典的な統計学と機械学習の方法に代わる有望な代替手段として登場した。
本研究では,ケースコントロール分類のためのグラフ表現学習モデルについて検討する。
タンパク質-タンパク質相互作用やメタボライト-メタボライト相互作用を含む,サンプル類似性ネットワークと分子相互作用ネットワークから得られたトポロジーを比較した。
論文 参考訳(メタデータ) (2024-06-20T16:06:39Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Geometric Graph Learning with Extended Atom-Types Features for
Protein-Ligand Binding Affinity Prediction [0.17132914341329847]
我々は、SYBYLのような広範囲な原子タイプを統合することにより、タンパク質-リガンド相互作用の研究のためにグラフベースの学習者をアップグレードする。
我々のアプローチでは、$textsybyltextGGL$-Scoreと$texteciftextGGL$-Scoreの2つの異なるメソッドが生成される。
SYBYL atom-type model $textsybyltextGGL$-Score はすべてのベンチマークで他の手法よりも優れています。
論文 参考訳(メタデータ) (2023-01-15T21:30:21Z) - Heterogeneous Graph Neural Networks using Self-supervised Reciprocally
Contrastive Learning [102.9138736545956]
不均一グラフニューラルネットワーク(HGNN)は異種グラフのモデリングと解析において非常に一般的な手法である。
我々は,ノード属性とグラフトポロジの各ガイダンスに関する2つの視点を取り入れた,新規で頑健なヘテロジニアスグラフコントラスト学習手法であるHGCLを初めて開発する。
この新しいアプローチでは,属性とトポロジに関連情報を別々にマイニングする手法として,異なるが最も適した属性とトポロジの融合機構を2つの視点に適用する。
論文 参考訳(メタデータ) (2022-04-30T12:57:02Z) - Hybrid Feature- and Similarity-Based Models for Prediction and
Interpretation using Large-Scale Observational Data [0.0]
教師付き学習のためのハイブリッド機能と類似性に基づくモデルを提案する。
提案したハイブリッドモデルは,カーネル部分の疎性誘導ペナルティを伴う凸最適化に適合する。
我々は,本モデルと,合成データを用いた特徴的および類似性に基づくアプローチとを比較し,孤独感や社会的孤立のリスクを予測するためにEHRデータを用いた。
論文 参考訳(メタデータ) (2022-04-12T20:37:03Z) - Interpretable Single-Cell Set Classification with Kernel Mean Embeddings [14.686560033030101]
Kernel Mean Embeddingは、各プロファイルされた生物学的サンプルの細胞景観をエンコードする。
簡単な線形分類器を訓練し、3つのフローおよび質量データセットの最先端の分類精度を実現する。
論文 参考訳(メタデータ) (2022-01-18T21:40:36Z) - Learning physically consistent mathematical models from data using group
sparsity [2.580765958706854]
生物学、高騒音レベル、センサーによる相関、強いシステム間変動といった分野では、データ駆動モデルは非感覚的または物理的に矛盾する。
データ駆動モデリングにおいて$textitpriors$を強制する利点を示すシステム生物学のいくつかの応用例を示す。
論文 参考訳(メタデータ) (2020-12-11T14:45:38Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Bayesian Sparse Factor Analysis with Kernelized Observations [67.60224656603823]
多視点問題は潜在変数モデルに直面することができる。
高次元問題と非線形問題は伝統的にカーネルメソッドによって扱われる。
両アプローチを単一モデルにマージすることを提案する。
論文 参考訳(メタデータ) (2020-06-01T14:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。