論文の概要: Rethinking the BERT-like Pretraining for DNA Sequences
- arxiv url: http://arxiv.org/abs/2310.07644v2
- Date: Thu, 12 Oct 2023 03:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:12:55.868302
- Title: Rethinking the BERT-like Pretraining for DNA Sequences
- Title(参考訳): DNA配列に対するBERT-like Pretrainingの再検討
- Authors: Chaoqi Liang, Weiqiang Bai, Lifeng Qiao, Yuchen Ren, Jianle Sun, Peng
Ye, Hongliang Yan, Xinzhu Ma, Wangmeng Zuo, and Wanli Ouyang
- Abstract要約: 既存のDNA配列の事前訓練方法は、NLPからのBERTの直接導入に依存している。
マスク境界を連続的に拡張することにより,BERTのような事前訓練のタスク困難を徐々に増大させるRandomMaskという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 72.85177907538872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the success of large-scale pretraining in NLP, there is an increasing
trend of applying it to the domain of life sciences. In particular, pretraining
methods based on DNA sequences have garnered growing attention due to their
potential to capture generic information about genes. However, existing
pretraining methods for DNA sequences largely rely on direct adoptions of BERT
pretraining from NLP, lacking a comprehensive understanding and a specifically
tailored approach. To address this research gap, we first conducted a series of
exploratory experiments and gained several insightful observations: 1) In the
fine-tuning phase of downstream tasks, when using K-mer overlapping
tokenization instead of K-mer non-overlapping tokenization, both overlapping
and non-overlapping pretraining weights show consistent performance
improvement.2) During the pre-training process, using K-mer overlapping
tokenization quickly produces clear K-mer embeddings and reduces the loss to a
very low level, while using K-mer non-overlapping tokenization results in less
distinct embeddings and continuously decreases the loss. 3) Using overlapping
tokenization causes the self-attention in the intermediate layers of
pre-trained models to tend to overly focus on certain tokens, reflecting that
these layers are not adequately optimized. In summary, overlapping tokenization
can benefit the fine-tuning of downstream tasks but leads to inadequate
pretraining with fast convergence. To unleash the pretraining potential, we
introduce a novel approach called RandomMask, which gradually increases the
task difficulty of BERT-like pretraining by continuously expanding its mask
boundary, forcing the model to learn more knowledge. RandomMask is simple but
effective, achieving top-tier performance across 26 datasets of 28 datasets
spanning 7 downstream tasks.
- Abstract(参考訳): NLPにおける大規模プレトレーニングの成功により、生命科学分野に適用する傾向が高まっている。
特に、DNA配列に基づく事前学習法は、遺伝子に関する一般的な情報を取得する可能性から注目されている。
しかし、既存のDNA配列の事前訓練法は主にNLPからのBERTの直接導入に依存しており、包括的理解と特異的に調整されたアプローチが欠如している。
この研究ギャップに対処するため、私たちはまず一連の探索実験を行い、いくつかの洞察に富んだ観察を行った。
1) In the fine-tuning phase of downstream tasks, when using K-mer overlapping tokenization instead of K-mer non-overlapping tokenization, both overlapping and non-overlapping pretraining weights show consistent performance improvement.2) During the pre-training process, using K-mer overlapping tokenization quickly produces clear K-mer embeddings and reduces the loss to a very low level, while using K-mer non-overlapping tokenization results in less distinct embeddings and continuously decreases the loss.
3) 重なり合うトークン化を用いることで,事前学習されたモデルの中間層における自己着脱は,これらの層が適切に最適化されていないことを反映して,特定のトークンに過度に注目する傾向がある。
要約すると、重複するトークン化は下流タスクの微調整に役立つが、高速収束による不適切な事前トレーニングにつながる。
これは、マスク境界を継続的に拡大し、モデルにより多くの知識を学ばせることによって、bertのような事前学習のタスクの難易度を徐々に高めるものである。
RandomMaskはシンプルだが効果的で、7つのダウンストリームタスクにまたがる28のデータセットからなる26のデータセットで最高のパフォーマンスを実現する。
関連論文リスト
- Prefixing Attention Sinks can Mitigate Activation Outliers for Large Language Model Quantization [13.475050661770796]
我々は,問題となるトークンの発生を防止し,アクティベーション単位の量子化を容易にするための簡易かつ効果的な戦略を開発する。
トークンキャッシュを調整して、その後のトークンのアクティベーションを規則化し、より量子化しやすいものにします。
我々は,この手法を広範囲のモデルとベンチマークで徹底的に評価し,拡張子ごとのW8A8量子化の確立されたベースラインをはるかに上回っていることを確認した。
論文 参考訳(メタデータ) (2024-06-17T18:33:44Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Does GNN Pretraining Help Molecular Representation? [5.5459878275267736]
自己教師付きグラフ事前学習は、多くの設定において非事前学習法に対して統計的に有意な優位性を持たない。
追加の教師付き事前トレーニングでは改善が観察できるが、よりリッチな機能やバランスの取れたデータ分割によって改善は減少する可能性がある。
我々は、分子の事前学習の複雑さが不十分であり、下流のタスクに対する伝達可能な知識が少なくなると仮定する。
論文 参考訳(メタデータ) (2022-07-13T07:34:16Z) - Generalization, Mayhems and Limits in Recurrent Proximal Policy
Optimization [1.8570591025615453]
正しく効率的な実装を実現するために、繰り返しを追加する際には、正しくなければならない重要な詳細を強調します。
モータル・メイヘムとシーリング・スポットライトのベンチマークによる再帰的PPOの限界について検討した。
注目すべきは、訓練種子の数を拡大する際のモルタル・マヘムの強い一般化への移行を示すことができることである。
論文 参考訳(メタデータ) (2022-05-23T07:54:15Z) - Revisiting Pretraining for Semi-Supervised Learning in the Low-Label
Regime [15.863530936691157]
半教師付き学習(SSL)は、擬似ラベル付けによって大きなラベル付きデータを活用することでラベル付きデータの欠如に対処する。
近年の研究では、訓練済み重量の微調整(FT)をSSLと組み合わせて課題を緩和し、低ラベル体制においてより優れた結果を主張している。
論文 参考訳(メタデータ) (2022-05-06T03:53:25Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。