Fugu-MT 論文翻訳(概要): GeneMask: Fast Pretraining of Gene Sequences to Enable Few-Shot Learning

論文の概要: GeneMask: Fast Pretraining of Gene Sequences to Enable Few-Shot Learning

arxiv url: http://arxiv.org/abs/2307.15933v1
Date: Sat, 29 Jul 2023 09:17:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 18:47:30.798788
Title: GeneMask: Fast Pretraining of Gene Sequences to Enable Few-Shot Learning
Title（参考訳）: GeneMask: 短いショット学習を可能にする遺伝子配列の高速事前学習
Authors: Soumyadeep Roy, Jonas Wallat, Sowmya S Sundaram, Wolfgang Nejdl, Niloy Ganguly
Abstract要約: 本稿では,遺伝子配列のトレーニングのための新しいマスキングアルゴリズムであるGeneMaskを提案する。我々は、GeneMaskをベースとしたモデルが、4つのベンチマーク遺伝子配列分類データセット上でSOTAモデル(DNABertとLOGO)を大幅に上回っていることを観察した。また,トップランクのPMIトークンと保存DNAシークエンスモチーフとの強い相関関係も観察した。
参考スコア（独自算出の注目度）: 18.24044777484094
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large-scale language models such as DNABert and LOGO aim to learn optimal gene representations and are trained on the entire Human Reference Genome. However, standard tokenization schemes involve a simple sliding window of tokens like k-mers that do not leverage any gene-based semantics and thus may lead to (trivial) masking of easily predictable sequences and subsequently inefficient Masked Language Modeling (MLM) training. Therefore, we propose a novel masking algorithm, GeneMask, for MLM training of gene sequences, where we randomly identify positions in a gene sequence as mask centers and locally select the span around the mask center with the highest Normalized Pointwise Mutual Information (NPMI) to mask. We observe that in the absence of human-understandable semantics in the genomics domain (in contrast, semantic units like words and phrases are inherently available in NLP), GeneMask-based models substantially outperform the SOTA models (DNABert and LOGO) over four benchmark gene sequence classification datasets in five few-shot settings (10 to 1000-shot). More significantly, the GeneMask-based DNABert model is trained for less than one-tenth of the number of epochs of the original SOTA model. We also observe a strong correlation between top-ranked PMI tokens and conserved DNA sequence motifs, which may indicate the incorporation of latent genomic information. The codes (including trained models) and datasets are made publicly available at https://github.com/roysoumya/GeneMask.
Abstract（参考訳）: DNABertやLOGOといった大規模言語モデルは、最適な遺伝子表現を学習することを目的としており、ヒト参照ゲノム全体をトレーニングしている。しかしながら、標準的なトークン化スキームは、k-merのような単純なトークンのスライディングウィンドウを含んでおり、遺伝子ベースのセマンティクスを一切利用せず、容易に予測可能なシーケンスを(簡単な)マスキングし、その後に非効率なマスケッド言語モデリング(MLM)のトレーニングに繋がる可能性がある。そこで,我々は遺伝子配列の位置をランダムにマスセンタとして同定し,最も高い正規化ポイントワイズ相互情報(npmi)を用いてマスセンタ周辺のスパンを局所的に選択するmlm学習のための新しいマスキングアルゴリズムであるgenemaskを提案する。ゲノミクス領域に人間の理解可能な意味論がない(対照的に、単語やフレーズのような意味単位がNLPで本質的に利用可能である)場合、GeneMaskベースのモデルは、4つのベンチマーク遺伝子配列分類データセット(10から1000ショット)でSOTAモデル(DNABertとLOGO)を大幅に上回っている。さらに、GeneMaskベースのDNABertモデルは、オリジナルのSOTAモデルのエポック数の10分の1以下で訓練されている。また,最上位のPMIトークンと保存DNAシークエンスモチーフとの相関が強く,潜伏したゲノム情報の取り込みを示す可能性がある。トレーニングされたモデルを含む)コードとデータセットはhttps://github.com/roysoumya/GeneMask.comで公開されている。

関連論文リスト

Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods [0.0]
従来のk-merトークン化は、局所的なDNA配列構造を捉えるのに効果的であるが、しばしば課題に直面している。選択したBPEトークンを600のBPEサイクルで生成し,ユニークな6merトークンと組み合わせることを提案する。このハイブリッドアプローチにより、バランスの取れたコンテキスト対応の語彙が保証され、モデルがショートパターンとロングパターンの両方をキャプチャできる。
論文参考訳（メタデータ） (2025-07-24T16:45:23Z)
BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects [14.172782866715844]
テキストで訓練された大規模言語モデル(LLM)は、自然言語処理(NLP)タスクにおいて顕著な結果を示した。 DNAは、明確に定義された単語や一貫した文法が欠けているため、基本的に自然言語と異なる。配列の変動、特にSNP(Single Nucleotide Polymorphisms)を効果的に統合する事前訓練基礎モデル以上の結果から,DNALMに配列変化を組み込むことは,すべての微調整タスクの改善にみられる生物学的機能を把握するのに役立つことが示唆された。
論文参考訳（メタデータ） (2025-06-26T13:56:32Z)
Masked Language Models are Good Heterogeneous Graph Generalizers [54.08788279971086]
LLM4HGと呼ばれるマスケ言語モデリング手法 HGトークンの代わりにメタパスベースのシーケンスを使用して、構造的および意味的な情報を抽出する。
論文参考訳（メタデータ） (2025-06-06T15:21:24Z)
GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文参考訳（メタデータ） (2025-05-06T03:35:24Z)
DNAZEN: Enhanced Gene Sequence Representations via Mixed Granularities of Coding Units [18.113659670915474]
ゲノムモデリングは、伝統的に遺伝子配列を言語として扱い、その構造的モチーフと言語単位や組織原理に類似した長距離依存を反映している。遺伝子配列の様々な粒度から学習するための改良されたゲノム表現フレームワークであるDNAZENを提案する。トランスフォーマーベースのG-gramエンコーダも提案され、一致したG-gramを入力して表現を計算し、基本単位のエンコーダに統合する。
論文参考訳（メタデータ） (2025-05-04T18:02:28Z)
Long-range gene expression prediction with token alignment of large language model [37.10820914895689]
本稿では,遺伝子配列の特徴を自然言語トークンと整合させる遺伝子配列Token Alignment(GTA)を提案する。 GTAは規制文法を学習し、遺伝子特異的な人間のアノテーションをプロンプトとして組み込むことができる。 GTAは、事前訓練された言語モデルを利用して、遺伝子発現予測に対する強力で斬新なクロスモーダルなアプローチを示す。
論文参考訳（メタデータ） (2024-10-02T02:42:29Z)
Unlocking Efficiency: Adaptive Masking for Gene Transformer Models [19.699485326192846]
Nucleotide Transformer、DNABert、LOGOなどの遺伝子トランスフォーマーモデルは最適な遺伝子配列を学習するために訓練されている。遺伝子配列は、NLPドメインの単語や文に似たよく定義された意味単位を持たない。提案したCM-GEMS(Curriculum Masking-based Gene Masking Strategy)は,優れた表現学習能力を示す。
論文参考訳（メタデータ） (2024-08-13T19:45:02Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文参考訳（メタデータ） (2022-11-23T07:04:41Z)
Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。 ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文参考訳（メタデータ） (2021-12-14T17:23:42Z)
Pre-training Co-evolutionary Protein Representation via A Pairwise Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。 Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文参考訳（メタデータ） (2021-10-29T04:01:32Z)
A deep learning classifier for local ancestry inference [63.8376359764052]
局所祖先推論は、個人のゲノムの各セグメントの祖先を特定する。我々は,エンコーダ・デコーダアーキテクチャを備えた深層畳み込みニューラルネットワークを用いた新しいLAIツールを開発した。我々は,既存のゴールド標準ツール RFMix とほぼ同等の精度で,ゼロショットタスクとしてアドミキシングを学習できることを実証した。
論文参考訳（メタデータ） (2020-11-04T00:42:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。