論文の概要: Data Augmentation for Compositional Data: Advancing Predictive Models of
the Microbiome
- arxiv url: http://arxiv.org/abs/2205.09906v1
- Date: Fri, 20 May 2022 00:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 09:00:59.274094
- Title: Data Augmentation for Compositional Data: Advancing Predictive Models of
the Microbiome
- Title(参考訳): 組成データのためのデータ拡張:微生物の予測モデルの改善
- Authors: Elliott Gordon-Rodriguez, Thomas P. Quinn, John P. Cunningham
- Abstract要約: 我々は、データ拡張の成功を合成データ、すなわち単純なx値のデータに拡張する。
我々は,大腸癌,2型糖尿病,クローン病などの重要な疾患予測タスクに対して,新たな最先端の課題を設定した。
- 参考スコア(独自算出の注目度): 16.488237064188727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data augmentation plays a key role in modern machine learning pipelines.
While numerous augmentation strategies have been studied in the context of
computer vision and natural language processing, less is known for other data
modalities. Our work extends the success of data augmentation to compositional
data, i.e., simplex-valued data, which is of particular interest in the context
of the human microbiome. Drawing on key principles from compositional data
analysis, such as the Aitchison geometry of the simplex and subcompositions, we
define novel augmentation strategies for this data modality. Incorporating our
data augmentations into standard supervised learning pipelines results in
consistent performance gains across a wide range of standard benchmark
datasets. In particular, we set a new state-of-the-art for key disease
prediction tasks including colorectal cancer, type 2 diabetes, and Crohn's
disease. In addition, our data augmentations enable us to define a novel
contrastive learning model, which improves on previous representation learning
approaches for microbiome compositional data. Our code is available at
https://github.com/cunningham-lab/AugCoDa.
- Abstract(参考訳): データ拡張は、現代の機械学習パイプラインにおいて重要な役割を果たす。
コンピュータビジョンと自然言語処理の文脈で多くの拡張戦略が研究されているが、他のデータモダリティでは知られていない。
我々の研究は、人間のマイクロバイオームの文脈において特に関心を持つ単純なデータ、すなわち単純なデータへのデータ拡張の成功を拡大する。
本研究は, 合成データ解析の鍵となる原理である, 単純体のアッチソン幾何や部分分解の原理に基づいて, このデータモダリティの新たな拡張戦略を定義する。
標準教師付き学習パイプラインにデータ拡張を組み込むことで、幅広い標準ベンチマークデータセットで一貫したパフォーマンス向上を実現します。
特に,大腸癌,2型糖尿病,クローン病などの重要な疾患予測タスクに対して,新たな最先端の課題を設定した。
さらに,マイクロバイオーム合成データに対する従来の表現学習アプローチを改良した,新しいコントラスト学習モデルを定義することが可能となった。
私たちのコードはhttps://github.com/cunningham-lab/augcodaで利用可能です。
関連論文リスト
- Meta-Learning on Augmented Gene Expression Profiles for Enhanced Lung Cancer Detection [3.7929238927240685]
本稿では,遺伝子発現プロファイルから肺がんを予測するためのメタラーニングに基づくアプローチを提案する。
メタ学習タスクには4つの異なるデータセットを使用します。
その結果、単一のデータセットでトレーニングされたベースラインと比較して、強化されたソースデータに対するメタラーニングの優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-19T01:39:12Z) - Towards Precision Healthcare: Robust Fusion of Time Series and Image Data [8.579651833717763]
本稿では,データの種類毎に2つのエンコーダを用いて,視覚情報と時間情報の両方において複雑なパターンをモデル化する手法を提案する。
また、不均衡なデータセットに対処し、不確実性損失関数を使用し、改善した結果を得る。
本手法は,臨床応用におけるマルチモーダルディープラーニングの改善に有効であることを示す。
論文 参考訳(メタデータ) (2024-05-24T11:18:13Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - Ensemble Machine Learning Model Trained on a New Synthesized Dataset
Generalizes Well for Stress Prediction Using Wearable Devices [3.006016887654771]
本研究では,少数の被験者を含むデータセット上に構築されたモデルの一般化能力について検討した。
本研究では,新たな未知のデータに対する予測パワーを測定するために,勾配押し上げと人工ニューラルネットワークを組み合わせたアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T00:20:57Z) - SubOmiEmbed: Self-supervised Representation Learning of Multi-omics Data
for Cancer Type Classification [4.992154875028543]
マルチオミクスデータの統合と解析により腫瘍の広い視野が得られ,臨床診断の精度が向上する。
SubOmiEmbedは、非常に小さなネットワークを持つベースラインであるOmiEmbedに匹敵する結果を生成する。
この作業は、突然変異に基づくゲノムデータを統合するために改善される。
論文 参考訳(メタデータ) (2022-02-03T16:39:09Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。