論文の概要: Toward Understanding BERT-Like Pre-Training for DNA Foundation Models
- arxiv url: http://arxiv.org/abs/2310.07644v3
- Date: Sun, 8 Sep 2024 09:50:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 03:52:53.412287
- Title: Toward Understanding BERT-Like Pre-Training for DNA Foundation Models
- Title(参考訳): DNA基盤モデルのためのBERTライクな事前試験の理解に向けて
- Authors: Chaoqi Liang, Lifeng Qiao, Peng Ye, Nanqing Dong, Jianle Sun, Weiqiang Bai, Yuchen Ren, Xinzhu Ma, Hongliang Yan, Chunfeng Song, Wanli Ouyang, Wangmeng Zuo,
- Abstract要約: 既存のDNA配列の事前訓練方法は、NLPからのBERT事前訓練の直接的な採用に依存している。
マスク境界を連続的に拡張することにより,BERTライクな事前学習作業の難易度を徐々に向上させるRandomMaskという新しい手法を提案する。
RandomMaskは、マシューのエピジェネティック・マーク・予測の相関係数の68.16%を突破し、ベースラインの19.85%を突破した。
- 参考スコア(独自算出の注目度): 78.48760388079523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of large-scale pre-training in language tasks, there is an increasing trend of applying it to the domain of life sciences. In particular, pre-training methods based on DNA sequences have received increasing attention because of their potential to capture general information about genes. However, existing pre-training methods for DNA sequences largely rely on direct adoptions of BERT pre-training from NLP, lacking a comprehensive understanding and a specifically tailored approach. To address this research gap, we provide the first empirical study with three insightful observations. Based on the empirical study, we notice that overlapping tokenizer can benefit the fine-tuning of downstream tasks but leads to inadequate pre-training with fast convergence. To unleash the pre-training potential, we introduce a novel approach called RandomMask, which gradually increases the task difficulty of BERT-like pre-training by continuously expanding its mask boundary, forcing the model to learn more knowledge. RandomMask is simple but effective, achieving state-of-the-art performance across 6 downstream tasks. RandomMask achieves a staggering 68.16\% in Matthew's correlation coefficient for Epigenetic Mark Prediction, a groundbreaking increase of 19.85\% over the baseline and a remarkable 3.69\% improvement over the previous state-of-the-art result.
- Abstract(参考訳): 言語タスクにおける大規模事前学習の成功により、生命科学分野に適用する傾向が高まっている。
特に、DNA配列に基づく事前学習法は、遺伝子に関する一般的な情報を取得する可能性から注目されている。
しかし、既存のDNA配列の事前学習法は、NLPからのBERT事前学習の直接的な採用に大きく依存しており、包括的理解と特別に調整されたアプローチが欠如している。
この研究ギャップに対処するため、3つの洞察に富んだ観察を行った最初の経験的研究を行った。
実証実験から, 重複トークン化器は下流タスクの微調整の恩恵を受けるが, 高速収束を伴う事前学習が不十分であることに気付く。
事前学習の可能性を解き放つためにランダムマスク(RandomMask)と呼ばれる新しい手法を導入する。これは、マスク境界を連続的に拡張することで、BERTライクな事前学習作業の難しさを徐々に増大させ、モデルにより多くの知識を学ばせる。
RandomMaskはシンプルだが効果的で、6つのダウンストリームタスクで最先端のパフォーマンスを実現する。
RandomMaskは、マシューのエピジェネティックマーク予測の相関係数の68.16\%、ベースラインの19.85\%の画期的な増加、そして前回の最先端よりも3.69\%の顕著な改善を達成している。
関連論文リスト
- A Novel Hybrid Parameter-Efficient Fine-Tuning Approach for Hippocampus Segmentation and Alzheimer's Disease Diagnosis [12.775565417928895]
本稿では,ハイブリッド並列およびシリアルアーキテクチャを用いたHyPSと呼ばれる,パラメータ効率の高いファインチューニング手法を提案する。
HyPSはモデルパラメータの最小限のサブセットを更新し、事前訓練されたモデルの元の知識トラクチャを保持する。
アルツハイマー病を認知正常(CN)個体と区別することで、HyPSはそれぞれ83.78%と64.29%の分類精度を達成した。
論文 参考訳(メタデータ) (2024-09-02T00:52:00Z) - Self-Distillation Improves DNA Sequence Inference [15.497250990633047]
SSP(Self-supervised pretraining)は、様々な下流タスクにおける予測精度を高める方法として認識されている。
この制限は主に、ゲノム学における既存のSSPアプローチが個々の配列のマスキング言語モデリングに焦点を当てているという事実に起因している。
本稿では,学生と教師のサブネットワーク間の協調学習を取り入れた,革新的なディープニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2024-05-14T12:24:52Z) - Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。
我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Hierarchical Pretraining on Multimodal Electronic Health Records [53.63585531565068]
本稿では,階層的マルチモーダルEHRデータに特化して設計されたMEDHMPという,新規で汎用的で統一的な事前学習フレームワークを紹介する。
提案したMEDHMPの有効性は,3つのレベルにまたがる8つの下流タスクの実験結果を通じて実証された。
論文 参考訳(メタデータ) (2023-10-11T20:23:33Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Does GNN Pretraining Help Molecular Representation? [5.5459878275267736]
自己教師付きグラフ事前学習は、多くの設定において非事前学習法に対して統計的に有意な優位性を持たない。
追加の教師付き事前トレーニングでは改善が観察できるが、よりリッチな機能やバランスの取れたデータ分割によって改善は減少する可能性がある。
我々は、分子の事前学習の複雑さが不十分であり、下流のタスクに対する伝達可能な知識が少なくなると仮定する。
論文 参考訳(メタデータ) (2022-07-13T07:34:16Z) - SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide
Association Study [48.75445626157713]
SNP2Vecは、SNPを理解するためのスケーラブルな自己教師付き事前学習手法である。
本研究では,SNP2Vecを用いて時系列ゲノミクスモデリングを行う。
中国コホートにおけるアルツハイマー病のリスク予測におけるアプローチの有効性について検討した。
論文 参考訳(メタデータ) (2022-04-14T01:53:58Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。