論文の概要: GV-Rep: A Large-Scale Dataset for Genetic Variant Representation Learning
- arxiv url: http://arxiv.org/abs/2407.16940v1
- Date: Wed, 24 Jul 2024 02:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 15:02:58.576835
- Title: GV-Rep: A Large-Scale Dataset for Genetic Variant Representation Learning
- Title(参考訳): GV-Rep:遺伝的変数表現学習のための大規模データセット
- Authors: Zehui Li, Vallijah Subasri, Guy-Bart Stan, Yiren Zhao, Bo Wang,
- Abstract要約: 可変長コンテキストと詳細なアノテーションを特徴とするGV-Repという大規模遺伝的バリアントデータセットを提案する。
GV-Repは、さまざまな特性、疾患、組織タイプ、実験コンテキストにわたるGV表現を学習するためのディープラーニングモデルのために設計されている。
- 参考スコア(独自算出の注目度): 7.365168184468284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Genetic variants (GVs) are defined as differences in the DNA sequences among individuals and play a crucial role in diagnosing and treating genetic diseases. The rapid decrease in next generation sequencing cost has led to an exponential increase in patient-level GV data. This growth poses a challenge for clinicians who must efficiently prioritize patient-specific GVs and integrate them with existing genomic databases to inform patient management. To addressing the interpretation of GVs, genomic foundation models (GFMs) have emerged. However, these models lack standardized performance assessments, leading to considerable variability in model evaluations. This poses the question: How effectively do deep learning methods classify unknown GVs and align them with clinically-verified GVs? We argue that representation learning, which transforms raw data into meaningful feature spaces, is an effective approach for addressing both indexing and classification challenges. We introduce a large-scale Genetic Variant dataset, named GV-Rep, featuring variable-length contexts and detailed annotations, designed for deep learning models to learn GV representations across various traits, diseases, tissue types, and experimental contexts. Our contributions are three-fold: (i) Construction of a comprehensive dataset with 7 million records, each labeled with characteristics of the corresponding variants, alongside additional data from 17,548 gene knockout tests across 1,107 cell types, 1,808 variant combinations, and 156 unique clinically verified GVs from real-world patients. (ii) Analysis of the structure and properties of the dataset. (iii) Experimentation of the dataset with pre-trained GFMs. The results show a significant gap between GFMs current capabilities and accurate GV representation. We hope this dataset will help advance genomic deep learning to bridge this gap.
- Abstract(参考訳): 遺伝的変異(GVs)は、個体間のDNA配列の違いとして定義され、遺伝疾患の診断と治療において重要な役割を果たす。
次世代シークエンシングコストの急激な低下は、患者レベルのGVデータの増加に繋がった。
この成長は、患者固有のGVを効率よく優先順位付けし、既存のゲノムデータベースと統合して患者の管理を知らせなければならない臨床医にとって課題となる。
GVの解釈に対処するために、ゲノム基盤モデル(GFM)が登場した。
しかし、これらのモデルは標準化された性能評価を欠き、モデル評価にかなりのばらつきをもたらす。
ディープラーニング手法は、未知のGVをどの程度効果的に分類し、臨床的に検証されたGVと整合させるのか?
生データを意味のある特徴空間に変換する表現学習は、インデックス化と分類の両課題に対処するための効果的なアプローチである、と我々は主張する。
我々はGV-Repという名前の大規模遺伝的バリアントデータセットを導入し、可変長コンテキストと詳細なアノテーションを特徴とし、さまざまな特性、疾患、組織タイプ、実験コンテキストのGV表現を深層学習モデルで学習するように設計された。
私たちの貢献は3倍です。
(i)700万レコードからなる包括的データセットの構築,および17,548件の遺伝子ノックアウトテスト,1,107件の細胞タイプ,1,808件の変異組み合わせ,および実世界の患者からの156件の特異な臨床検査GVについて,それぞれ特徴をラベル付けした。
(ii)データセットの構造と特性の分析。
三 事前訓練したGFMを用いたデータセットの実験。
その結果, GFMの現在の能力と正確な GV 表現との間に大きな差が認められた。
このデータセットが、このギャップを埋めるためにゲノム深層学習を前進させることを期待しています。
関連論文リスト
- Integrating Large Language Models for Genetic Variant Classification [12.244115429231888]
大型言語モデル (LLM) は遺伝学においてトランスフォーメーションツールとして登場した。
本研究では,GPN-MSA,ESM1b,AlphaMissenseを含む最先端LLMの統合について検討した。
提案手法は,よく注釈付けされたProteinGymとClinVarのデータセットを用いて,これらの統合モデルを評価する。
論文 参考訳(メタデータ) (2024-11-07T13:45:56Z) - Weighted Diversified Sampling for Efficient Data-Driven Single-Cell Gene-Gene Interaction Discovery [56.622854875204645]
本稿では,遺伝子・遺伝子相互作用の探索に先進的なトランスフォーマーモデルを活用する,データ駆動型計算ツールを活用した革新的なアプローチを提案する。
新たな重み付き多様化サンプリングアルゴリズムは、データセットのたった2パスで、各データサンプルの多様性スコアを算出する。
論文 参考訳(メタデータ) (2024-10-21T03:35:23Z) - Embedding-based Multimodal Learning on Pan-Squamous Cell Carcinomas for Improved Survival Outcomes [0.0]
PARADIGMは、マルチモーダルで異質なデータセットから学習し、臨床結果の予測を改善するフレームワークである。
膵扁平上皮癌においてGNNを訓練し,Moffitt Cancer Center肺SCCデータに対するアプローチを検証した。
我々のソリューションは、患者の状況を包括的に理解することを目的としており、異種データ統合と最大データビューの収束の利点についての洞察を提供する。
論文 参考訳(メタデータ) (2024-06-11T22:19:14Z) - Unlocking the Power of Multi-institutional Data: Integrating and Harmonizing Genomic Data Across Institutions [3.5489676012585236]
共通遺伝子を超えて情報を保存するための統合的特徴を導出するためにブリッジモデルを導入する。
このモデルは、GenIE BPCデータにおいて、6種類のがん種にわたる患者の生存を予測するのに一貫して優れている。
論文 参考訳(メタデータ) (2024-01-30T23:25:05Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Genetic InfoMax: Exploring Mutual Information Maximization in
High-Dimensional Imaging Genetics Studies [50.11449968854487]
遺伝子ワイド・アソシエーション(GWAS)は、遺伝的変異と特定の形質の関係を同定するために用いられる。
画像遺伝学の表現学習は、GWASによって引き起こされる固有の課題により、ほとんど探索されていない。
本稿では,GWAS の具体的な課題に対処するために,トランスモーダル学習フレームワーク Genetic InfoMax (GIM) を提案する。
論文 参考訳(メタデータ) (2023-09-26T03:59:21Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。