論文の概要: Rethinking the BERT-like Pretraining for DNA Sequences
- arxiv url: http://arxiv.org/abs/2310.07644v2
- Date: Thu, 12 Oct 2023 03:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 11:12:55.868302
- Title: Rethinking the BERT-like Pretraining for DNA Sequences
- Title(参考訳): DNA配列に対するBERT-like Pretrainingの再検討
- Authors: Chaoqi Liang, Weiqiang Bai, Lifeng Qiao, Yuchen Ren, Jianle Sun, Peng
Ye, Hongliang Yan, Xinzhu Ma, Wangmeng Zuo, and Wanli Ouyang
- Abstract要約: 既存のDNA配列の事前訓練方法は、NLPからのBERTの直接導入に依存している。
マスク境界を連続的に拡張することにより,BERTのような事前訓練のタスク困難を徐々に増大させるRandomMaskという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 72.85177907538872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the success of large-scale pretraining in NLP, there is an increasing
trend of applying it to the domain of life sciences. In particular, pretraining
methods based on DNA sequences have garnered growing attention due to their
potential to capture generic information about genes. However, existing
pretraining methods for DNA sequences largely rely on direct adoptions of BERT
pretraining from NLP, lacking a comprehensive understanding and a specifically
tailored approach. To address this research gap, we first conducted a series of
exploratory experiments and gained several insightful observations: 1) In the
fine-tuning phase of downstream tasks, when using K-mer overlapping
tokenization instead of K-mer non-overlapping tokenization, both overlapping
and non-overlapping pretraining weights show consistent performance
improvement.2) During the pre-training process, using K-mer overlapping
tokenization quickly produces clear K-mer embeddings and reduces the loss to a
very low level, while using K-mer non-overlapping tokenization results in less
distinct embeddings and continuously decreases the loss. 3) Using overlapping
tokenization causes the self-attention in the intermediate layers of
pre-trained models to tend to overly focus on certain tokens, reflecting that
these layers are not adequately optimized. In summary, overlapping tokenization
can benefit the fine-tuning of downstream tasks but leads to inadequate
pretraining with fast convergence. To unleash the pretraining potential, we
introduce a novel approach called RandomMask, which gradually increases the
task difficulty of BERT-like pretraining by continuously expanding its mask
boundary, forcing the model to learn more knowledge. RandomMask is simple but
effective, achieving top-tier performance across 26 datasets of 28 datasets
spanning 7 downstream tasks.
- Abstract(参考訳): NLPにおける大規模プレトレーニングの成功により、生命科学分野に適用する傾向が高まっている。
特に、DNA配列に基づく事前学習法は、遺伝子に関する一般的な情報を取得する可能性から注目されている。
しかし、既存のDNA配列の事前訓練法は主にNLPからのBERTの直接導入に依存しており、包括的理解と特異的に調整されたアプローチが欠如している。
この研究ギャップに対処するため、私たちはまず一連の探索実験を行い、いくつかの洞察に富んだ観察を行った。
1) In the fine-tuning phase of downstream tasks, when using K-mer overlapping tokenization instead of K-mer non-overlapping tokenization, both overlapping and non-overlapping pretraining weights show consistent performance improvement.2) During the pre-training process, using K-mer overlapping tokenization quickly produces clear K-mer embeddings and reduces the loss to a very low level, while using K-mer non-overlapping tokenization results in less distinct embeddings and continuously decreases the loss.
3) 重なり合うトークン化を用いることで,事前学習されたモデルの中間層における自己着脱は,これらの層が適切に最適化されていないことを反映して,特定のトークンに過度に注目する傾向がある。
要約すると、重複するトークン化は下流タスクの微調整に役立つが、高速収束による不適切な事前トレーニングにつながる。
これは、マスク境界を継続的に拡大し、モデルにより多くの知識を学ばせることによって、bertのような事前学習のタスクの難易度を徐々に高めるものである。
RandomMaskはシンプルだが効果的で、7つのダウンストリームタスクにまたがる28のデータセットからなる26のデータセットで最高のパフォーマンスを実現する。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - SmartBERT: A Promotion of Dynamic Early Exiting Mechanism for
Accelerating BERT Inference [18.456002674399244]
本稿では,SmartBERT と呼ばれる BERT 推論のための動的早期退避と層スキップを併用した新しい動的早期退避法を提案する。
SmartBERTは、いくつかのレイヤを適応的にスキップし、終了するかどうかを適応的に選択できる。
GLUEベンチマークの8つの分類データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-03-16T12:44:16Z) - Does GNN Pretraining Help Molecular Representation? [5.5459878275267736]
自己教師付きグラフ事前学習は、多くの設定において非事前学習法に対して統計的に有意な優位性を持たない。
追加の教師付き事前トレーニングでは改善が観察できるが、よりリッチな機能やバランスの取れたデータ分割によって改善は減少する可能性がある。
我々は、分子の事前学習の複雑さが不十分であり、下流のタスクに対する伝達可能な知識が少なくなると仮定する。
論文 参考訳(メタデータ) (2022-07-13T07:34:16Z) - Generalization, Mayhems and Limits in Recurrent Proximal Policy
Optimization [1.8570591025615453]
正しく効率的な実装を実現するために、繰り返しを追加する際には、正しくなければならない重要な詳細を強調します。
モータル・メイヘムとシーリング・スポットライトのベンチマークによる再帰的PPOの限界について検討した。
注目すべきは、訓練種子の数を拡大する際のモルタル・マヘムの強い一般化への移行を示すことができることである。
論文 参考訳(メタデータ) (2022-05-23T07:54:15Z) - Revisiting Pretraining for Semi-Supervised Learning in the Low-Label
Regime [15.863530936691157]
半教師付き学習(SSL)は、擬似ラベル付けによって大きなラベル付きデータを活用することでラベル付きデータの欠如に対処する。
近年の研究では、訓練済み重量の微調整(FT)をSSLと組み合わせて課題を緩和し、低ラベル体制においてより優れた結果を主張している。
論文 参考訳(メタデータ) (2022-05-06T03:53:25Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。