論文の概要: Unlocking Efficiency: Adaptive Masking for Gene Transformer Models
- arxiv url: http://arxiv.org/abs/2408.07180v1
- Date: Tue, 13 Aug 2024 19:45:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:45:31.872109
- Title: Unlocking Efficiency: Adaptive Masking for Gene Transformer Models
- Title(参考訳): アンロック効率:遺伝子トランスモデルの適応型マスキング
- Authors: Soumyadeep Roy, Shamik Sural, Niloy Ganguly,
- Abstract要約: Nucleotide Transformer、DNABert、LOGOなどの遺伝子トランスフォーマーモデルは最適な遺伝子配列を学習するために訓練されている。
遺伝子配列は、NLPドメインの単語や文に似たよく定義された意味単位を持たない。
提案したCM-GEMS(Curriculum Masking-based Gene Masking Strategy)は,優れた表現学習能力を示す。
- 参考スコア(独自算出の注目度): 19.699485326192846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gene transformer models such as Nucleotide Transformer, DNABert, and LOGO are trained to learn optimal gene sequence representations by using the Masked Language Modeling (MLM) training objective over the complete Human Reference Genome. However, the typical tokenization methods employ a basic sliding window of tokens, such as k-mers, that fail to utilize gene-centric semantics. This could result in the (trivial) masking of easily predictable sequences, leading to inefficient MLM training. Time-variant training strategies are known to improve pretraining efficiency in both language and vision tasks. In this work, we focus on using curriculum masking where we systematically increase the difficulty of masked token prediction task by using a Pointwise Mutual Information-based difficulty criterion, as gene sequences lack well-defined semantic units similar to words or sentences of NLP domain. Our proposed Curriculum Masking-based Gene Masking Strategy (CM-GEMS) demonstrates superior representation learning capabilities compared to baseline masking approaches when evaluated on downstream gene sequence classification tasks. We perform extensive evaluation in both few-shot (five datasets) and full dataset settings (Genomic Understanding Evaluation benchmark consisting of 27 tasks). Our findings reveal that CM-GEMS outperforms state-of-the-art models (DNABert-2, Nucleotide transformer, DNABert) trained at 120K steps, achieving similar results in just 10K and 1K steps. We also demonstrate that Curriculum-Learned LOGO (a 2-layer DNABert-like model) can achieve nearly 90% of the state-of-the-art model performance of 120K steps. We will make the models and codes publicly available at https://github.com/roysoumya/curriculum-GeneMask.
- Abstract(参考訳): Nucleotide Transformer, DNABert, LOGOなどの遺伝子トランスフォーマーモデルを用いて, 完全なヒト参照ゲノム上でのMasked Language Modeling (MLM) トレーニング目標を用いて最適な遺伝子配列表現を学習する。
しかし、典型的なトークン化法は、遺伝子中心の意味論を利用できないk-mersのようなトークンの基本的なスライディングウィンドウを用いる。
これは容易に予測可能なシーケンスを(簡単な)マスキングし、非効率なMLMトレーニングに繋がる可能性がある。
時変訓練戦略は、言語と視覚の両方のタスクにおける事前訓練効率を改善することが知られている。
本研究では,NLPドメインの単語や文に類似したセマンティック・ユニットが適切に定義されていないため,ポイントワイズ相互情報に基づく難易度基準を用いることで,マスク付きトークン予測タスクの難易度を体系的に向上するカリキュラムマスキングに着目する。
提案したCM-GEMS(Curriculum Masking-based Gene Masking Strategy)は、下流の遺伝子配列分類タスクで評価した場合、ベースラインマスキング手法よりも優れた表現学習能力を示す。
本研究は,27のタスクからなるゲノム理解評価ベンチマーク(Genomic Understanding Evaluationベンチマーク)において,複数ショット(5つのデータセット)と全データセット設定の両方で広範囲に評価を行う。
以上の結果から,CM-GEMSは120Kステップでトレーニングした最先端モデル (DNABert-2, Nucleotide transformer, DNABert) よりも優れており,10Kステップと1Kステップで同様の結果が得られた。
また,Curriculum-Learned LOGO (2層DNABertライクなモデル)は,120Kステップの最先端モデルの性能の90%近くを達成できることを示した。
モデルとコードはhttps://github.com/roysoumya/curriculum-GeneMask.comで公開します。
関連論文リスト
- VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Gene-induced Multimodal Pre-training for Image-omic Classification [20.465959546613554]
本稿では、ゲノム情報と全スライド画像(WSI)を併用した遺伝子誘導型マルチモーダル事前学習フレームワークを提案する。
TCGAデータセットによる実験結果から,ネットワークアーキテクチャと事前学習フレームワークの優位性が示され,画像-オミクス分類の精度は99.47%に達した。
論文 参考訳(メタデータ) (2023-09-06T04:30:15Z) - GeneMask: Fast Pretraining of Gene Sequences to Enable Few-Shot Learning [18.24044777484094]
本稿では,遺伝子配列のトレーニングのための新しいマスキングアルゴリズムであるGeneMaskを提案する。
我々は、GeneMaskをベースとしたモデルが、4つのベンチマーク遺伝子配列分類データセット上でSOTAモデル(DNABertとLOGO)を大幅に上回っていることを観察した。
また,トップランクのPMIトークンと保存DNAシークエンスモチーフとの強い相関関係も観察した。
論文 参考訳(メタデータ) (2023-07-29T09:17:16Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。