論文の概要: Unlocking the Power of Multi-institutional Data: Integrating and
Harmonizing Genomic Data Across Institutions
- arxiv url: http://arxiv.org/abs/2402.00077v1
- Date: Tue, 30 Jan 2024 23:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:48:20.430645
- Title: Unlocking the Power of Multi-institutional Data: Integrating and
Harmonizing Genomic Data Across Institutions
- Title(参考訳): 多施設データの力を解き放つ : 施設間におけるゲノムデータの統合と調和
- Authors: Yuan Chen, Ronglai Shen, Xiwen Feng, Katherine Panageas
- Abstract要約: 共通遺伝子を超えて情報を保存するための統合的特徴を導出するためにブリッジモデルを導入する。
このモデルは、GenIE BPCデータにおいて、6種類のがん種にわたる患者の生存を予測するのに一貫して優れている。
- 参考スコア(独自算出の注目度): 3.8769921482808116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cancer is a complex disease driven by genomic alterations, and tumor
sequencing is becoming a mainstay of clinical care for cancer patients. The
emergence of multi-institution sequencing data presents a powerful resource for
learning real-world evidence to enhance precision oncology. GENIE BPC, led by
the American Association for Cancer Research, establishes a unique database
linking genomic data with clinical information for patients treated at multiple
cancer centers. However, leveraging such multi-institutional sequencing data
presents significant challenges. Variations in gene panels result in loss of
information when the analysis is conducted on common gene sets. Additionally,
differences in sequencing techniques and patient heterogeneity across
institutions add complexity. High data dimensionality, sparse gene mutation
patterns, and weak signals at the individual gene level further complicate
matters. Motivated by these real-world challenges, we introduce the Bridge
model. It uses a quantile-matched latent variable approach to derive integrated
features to preserve information beyond common genes and maximize the
utilization of all available data while leveraging information sharing to
enhance both learning efficiency and the model's capacity to generalize. By
extracting harmonized and noise-reduced lower-dimensional latent variables, the
true mutation pattern unique to each individual is captured. We assess the
model's performance and parameter estimation through extensive simulation
studies. The extracted latent features from the Bridge model consistently excel
in predicting patient survival across six cancer types in GENIE BPC data.
- Abstract(参考訳): 癌はゲノム変異によって引き起こされる複雑な疾患であり、腫瘍シークエンシングはがん患者の臨床治療のメインステイとなっている。
多施設シークエンシングデータの出現は、実世界の証拠を学習し、精度のオンコロジーを高めるための強力な資源となる。
アメリカがん研究協会(American Association for Cancer Research)が率いるGENIE BPCは、複数のがんセンターで治療された患者の臨床情報とゲノムデータをリンクするユニークなデータベースを構築している。
しかし、このような多施設のシーケンシングデータを活用することは大きな課題である。
遺伝子パネルの変異は、共通の遺伝子セットで解析を行うと情報を失う。
さらに、シークエンシング技術の違いと患者間の異質性が複雑化する。
高データ次元、スパース遺伝子変異パターン、および個々の遺伝子レベルでの弱い信号は、さらに問題を複雑にする。
これらの現実的な課題に感銘を受け、ブリッジモデルを紹介します。
質的一致の潜在変数アプローチを使用して、共通の遺伝子を超えた情報を保存し、利用可能なすべてのデータの利用を最大化するために統合機能を導出し、情報共有を利用して学習効率とモデルの一般化能力の両方を高める。
調和化およびノイズ低減化された低次元潜伏変数を抽出することにより、各個体固有の真の突然変異パターンを捕捉する。
モデルの性能とパラメータ推定を広範囲なシミュレーション研究により評価する。
ブリッジモデルから抽出した潜伏性特徴は,genIE BPCデータ中の6種類のがんの生存率の予測に一貫して優れている。
関連論文リスト
- Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - Multi-Omic and Quantum Machine Learning Integration for Lung Subtypes Classification [0.0]
量子コンピューティングと機械学習の融合は、マルチオミクスデータセット内の複雑なパターンを解き放つことを約束している。
我々は,バイオマーカー発見の可能性を秘めたLUADデータセットとLUSCデータセットの最適な識別方法を開発した。
論文 参考訳(メタデータ) (2024-10-02T23:16:31Z) - Embedding-based Multimodal Learning on Pan-Squamous Cell Carcinomas for Improved Survival Outcomes [0.0]
PARADIGMは、マルチモーダルで異質なデータセットから学習し、臨床結果の予測を改善するフレームワークである。
膵扁平上皮癌においてGNNを訓練し,Moffitt Cancer Center肺SCCデータに対するアプローチを検証した。
我々のソリューションは、患者の状況を包括的に理解することを目的としており、異種データ統合と最大データビューの収束の利点についての洞察を提供する。
論文 参考訳(メタデータ) (2024-06-11T22:19:14Z) - Integrate Any Omics: Towards genome-wide data integration for patient
stratification [6.893309898200498]
IntegrAOは、不完全なマルチオミクスデータを統合し、新しいサンプルを分類するための教師なしのフレームワークである。
不均一データや不完全データを扱うIntegratedAOの能力は、精度オンコロジーに不可欠なツールである。
論文 参考訳(メタデータ) (2024-01-15T19:57:07Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Incomplete Multimodal Learning for Complex Brain Disorders Prediction [65.95783479249745]
本稿では,変換器と生成対向ネットワークを用いた不完全なマルチモーダルデータ統合手法を提案する。
アルツハイマー病神経画像イニシアチブコホートを用いたマルチモーダルイメージングによる認知変性と疾患予後の予測に本手法を適用した。
論文 参考訳(メタデータ) (2023-05-25T16:29:16Z) - Deep Biological Pathway Informed Pathology-Genomic Multimodal Survival
Prediction [7.133948707208067]
本稿では,新しい生物学的経路インフォームド・病理-ゲノム深層モデルであるPONETを提案する。
提案手法は優れた予測性能を達成し,有意義な生物学的解釈を明らかにする。
論文 参考訳(メタデータ) (2023-01-06T05:24:41Z) - Topological Data Analysis of copy number alterations in cancer [70.85487611525896]
癌ゲノム情報に含まれる情報を新しいトポロジに基づくアプローチで捉える可能性を探る。
本手法は, 癌体性遺伝データに有意な低次元表現を抽出する可能性を秘めている。
論文 参考訳(メタデータ) (2020-11-22T17:31:23Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。