論文の概要: Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types
- arxiv url: http://arxiv.org/abs/2110.05231v1
- Date: Mon, 11 Oct 2021 12:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 16:44:53.048152
- Title: Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types
- Title(参考訳): 細胞横断型レギュレーションゲノムのためのマルチモーダル自己教師型プレトレーニング
- Authors: Shentong Mo, Xi Fu, Chenyang Hong, Yizhen Chen, Yuxuan Zheng, Xiangru
Tang, Zhiqiang Shen, Eric P Xing, Yanyan Lan
- Abstract要約: 我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
- 参考スコア(独自算出の注目度): 75.65676405302105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the genome biology research, regulatory genome modeling is an important
topic for many regulatory downstream tasks, such as promoter classification,
transaction factor binding sites prediction. The core problem is to model how
regulatory elements interact with each other and its variability across
different cell types. However, current deep learning methods often focus on
modeling genome sequences of a fixed set of cell types and do not account for
the interaction between multiple regulatory elements, making them only perform
well on the cell types in the training set and lack the generalizability
required in biological applications. In this work, we propose a simple yet
effective approach for pre-training genome data in a multi-modal and
self-supervised manner, which we call GeneBERT. Specifically, we simultaneously
take the 1d sequence of genome data and a 2d matrix of (transcription factors x
regions) as the input, where three pre-training tasks are proposed to improve
the robustness and generalizability of our model. We pre-train our model on the
ATAC-seq dataset with 17 million genome sequences. We evaluate our GeneBERT on
regulatory downstream tasks across different cell types, including promoter
classification, transaction factor binding sites prediction, disease risk
estimation, and splicing sites prediction. Extensive experiments demonstrate
the effectiveness of multi-modal and self-supervised pre-training for
large-scale regulatory genomics data.
- Abstract(参考訳): ゲノム生物学の研究において、制御ゲノムモデリングはプロモーター分類、トランザクションファクター結合部位の予測など、多くの規制下流タスクにおいて重要なトピックである。
中心的な問題は、規制要素が相互にどのように相互作用し、異なる細胞タイプ間で変動するかをモデル化することである。
しかし、現在のディープラーニング手法は、固定された細胞型のゲノム配列をモデル化することに集中し、複数の規制要素間の相互作用を考慮せず、トレーニングセット内の細胞タイプにのみうまく機能し、生物学的応用に必要な一般化性に欠ける。
そこで本研究では,GeneBERTと呼ばれる,マルチモーダルかつ自己管理的なゲノムデータを事前学習するための,シンプルかつ効果的なアプローチを提案する。
具体的には、ゲノムデータの1d配列と2d行列(転写因子x領域)を同時に入力とし、モデルの堅牢性と一般化性を改善するために3つの事前学習タスクを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
我々は、プロモーター分類、トランザクション因子結合サイト予測、疾患リスク推定、スプライシングサイト予測を含む、異なる細胞タイプにわたる制御下降タスクについて遺伝子価を評価する。
大規模規制ゲノミクスデータに対するマルチモーダルおよび自己教師付き事前学習の有効性を示す。
関連論文リスト
- scFusionTTT: Single-cell transcriptomics and proteomics fusion with Test-Time Training layers [14.254553622632594]
scFusionはTTTベースのマスク付きオートエンコーダを用いたシングルセルマルチモーダルオミクスフュージョンの新しい手法である。
我々はヒトゲノム中の遺伝子とタンパク質の秩序情報をTTT層と組み合わせ、マルチモーダルオミクスを融合させ、単調オミクス解析を強化する。
論文 参考訳(メタデータ) (2024-10-17T06:29:29Z) - Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。
本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Cell reprogramming design by transfer learning of functional
transcriptional networks [0.0]
我々は,ヒト細胞運命に関連する転写学的データに基づいて事前学習した細胞行動を制御するための転写学習手法を開発した。
本研究では, 発達関連性の低下に伴い, ある運命から別の運命へと進むために必要な遺伝子摂動の数が増加することを示す。
論文 参考訳(メタデータ) (2024-03-07T19:00:02Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。