Fugu-MT 論文翻訳(概要): Epigenomic language models powered by Cerebras

論文の概要: Epigenomic language models powered by Cerebras

arxiv url: http://arxiv.org/abs/2112.07571v1
Date: Tue, 14 Dec 2021 17:23:42 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-15 16:51:49.293419
Title: Epigenomic language models powered by Cerebras
Title（参考訳）: Cerebrasを利用したエピジェノミクス言語モデル
Authors: Meredith V. Trotter, Cuong Q. Nguyen, Stephen Young, Rob T. Woodruff, Kim M. Branson
Abstract要約: エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。 ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large scale self-supervised pre-training of Transformer language models has advanced the field of Natural Language Processing and shown promise in cross-application to the biological `languages' of proteins and DNA. Learning effective representations of DNA sequences using large genomic sequence corpuses may accelerate the development of models of gene regulation and function through transfer learning. However, to accurately model cell type-specific gene regulation and function, it is necessary to consider not only the information contained in DNA nucleotide sequences, which is mostly invariant between cell types, but also how the local chemical and structural `epigenetic state' of chromosomes varies between cell types. Here, we introduce a Bidirectional Encoder Representations from Transformers (BERT) model that learns representations based on both DNA sequence and paired epigenetic state inputs, which we call Epigenomic BERT (or EBERT). We pre-train EBERT with a masked language model objective across the entire human genome and across 127 cell types. Training this complex model with a previously prohibitively large dataset was made possible for the first time by a partnership with Cerebras Systems, whose CS-1 system powered all pre-training experiments. We show EBERT's transfer learning potential by demonstrating strong performance on a cell type-specific transcription factor binding prediction task. Our fine-tuned model exceeds state of the art performance on 4 of 13 evaluation datasets from ENCODE-DREAM benchmarks and earns an overall rank of 3rd on the challenge leaderboard. We explore how the inclusion of epigenetic data and task specific feature augmentation impact transfer learning performance.
Abstract（参考訳）: トランスフォーマー言語モデルの大規模自己教師型事前学習は自然言語処理の分野を進歩させ、タンパク質やDNAの生物学的な「言語」への相互適用を約束している。大きなゲノム配列コーパスを用いたDNA配列の効果的な表現の学習は、転写学習を通じて遺伝子制御と機能モデルの開発を加速させる可能性がある。しかし、細胞型特異的な遺伝子制御と機能を正確にモデル化するには、DNAヌクレオチド配列に含まれる情報は主に細胞種間で不変であるだけでなく、染色体の局所的な化学的・構造的「エピジェネティック状態」が細胞種間でどのように異なるかを考える必要がある。本稿では,トランスフォーマー(BERT)モデルによる双方向エンコーダ表現について紹介する。このモデルでは,DNA配列とペアのエピジェネティック状態の入力に基づいて表現を学習し,エピゲノミックBERT(Epegenomic BERT,EBERT)と呼ぶ。 EBERTは、ヒトゲノム全体と127種類の細胞に対して、マスク付き言語モデルで事前訓練する。この複雑なモデルを従来は禁止されていた大規模データセットでトレーニングすることは、cerebras systemsとのパートナーシップによって初めて可能となった。細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。本モデルでは,エンコードドリームベンチマークから評価データセット13点中4点において,芸術性能の状態を超過し,チャレンジ・リーダーボードにおいて3位にランクインする。本稿では,エピジェネティックデータとタスク特化機能の追加が伝達学習性能に与える影響について考察する。

関連論文リスト

BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。 DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文参考訳（メタデータ） (2025-06-26T13:56:32Z)
GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。 2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文参考訳（メタデータ） (2025-03-11T02:33:33Z)
Can Large Language Models Predict Antimicrobial Resistance Gene? [0.0]
本研究では, 大規模言語モデルが様々なラベルを持つDNA配列をいかに効果的に扱うかを評価する。抗菌抵抗性遺伝子について実験を行い、その結果、生成型大規模言語モデルが同等または潜在的に優れた予測を提供することを示した。
論文参考訳（メタデータ） (2025-03-06T13:10:57Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
scReader: Prompting Large Language Models to Interpret scRNA-seq Data [12.767105992391555]
本稿では,大規模言語モデルの一般的な知識機能と,単一セルオミクスデータ解釈のためのドメイン固有表現モデルを統合する,革新的なハイブリッドアプローチを提案する。単細胞遺伝子レベルでの遺伝子発現データをプロンプトで入力することにより、様々な種および細胞タイプにわたる遺伝子発現の差分レベルに基づいて、細胞表現を効果的にモデル化する。
論文参考訳（メタデータ） (2024-12-24T04:28:42Z)
Long-range gene expression prediction with token alignment of large language model [37.10820914895689]
本稿では,遺伝子配列の特徴を自然言語トークンと整合させる遺伝子配列Token Alignment(GTA)を提案する。 GTAは規制文法を学習し、遺伝子特異的な人間のアノテーションをプロンプトとして組み込むことができる。 GTAは、事前訓練された言語モデルを利用して、遺伝子発現予測に対する強力で斬新なクロスモーダルなアプローチを示す。
論文参考訳（メタデータ） (2024-10-02T02:42:29Z)
Generating Multi-Modal and Multi-Attribute Single-Cell Counts with CFGen [76.02070962797794]
マルチモーダル単細胞数に対するフローベース条件生成モデルであるセルフロー・フォー・ジェネレーションを提案する。本研究は, 新規な生成タスクを考慮に入れた上で, 重要な生物学的データ特性の回復性の向上を示唆するものである。
論文参考訳（メタデータ） (2024-07-16T14:05:03Z)
Multi-modal Transfer Learning between Biological Foundation Models [2.6545450959042234]
そこで本研究では,DNA,RNA,タンパク質を結合するマルチモーダル特異的モデルを提案する。我々のモデルはIsoFormerと呼ばれ、既存の手法よりも優れた差分転写表現を正確に予測できることを示します。我々は、新しいマルチモーダル遺伝子表現アプローチの道を開くために、我々のモデルをオープンソース化した。
論文参考訳（メタデータ） (2024-06-20T09:44:53Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
A single-cell gene expression language model [2.9112649816695213]
遺伝子間のコンテキスト依存を学習する機械学習システムを提案する。我々のモデルであるExceiverは、自己教師型タスクを用いて、多様な細胞タイプで訓練されている。生物学的アノテーションに関して,潜在サンプル表現の類似性プロファイルと学習された遺伝子埋め込みとの間に一致が認められた。
論文参考訳（メタデータ） (2022-10-25T20:52:19Z)
Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文参考訳（メタデータ） (2021-10-11T12:48:44Z)
Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文参考訳（メタデータ） (2020-09-02T02:50:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。