論文の概要: In Search of Lost DNA Sequence Pretraining
- arxiv url: http://arxiv.org/abs/2604.16570v1
- Date: Fri, 17 Apr 2026 11:43:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.077661
- Title: In Search of Lost DNA Sequence Pretraining
- Title(参考訳): 失われたDNA配列の事前学習をめざして
- Authors: Zhijiang Tang, Jiaxin Qi, Yan Cui, Jinli Ou, Yuhua Zheng, Jianqiang Huang,
- Abstract要約: DNA配列のコード化は、遺伝子機能予測、タンパク質合成、下流の様々な生物学的タスクの基礎である。
既存の研究では、事前学習スケールとカスタムダウンストリーム評価データセットが圧倒的に強調されている。
我々は,DNAプレトレーニングにおいてこれまで見過ごされてきた3つの問題,不適切な下流データセット,近隣のマスキング戦略に固有の欠陥,語彙に関する詳細な議論の欠如を明らかにした。
- 参考スコア(独自算出の注目度): 17.25808116440892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNA sequence encoding is fundamental to gene function prediction, protein synthesis, and diverse downstream biological tasks. Despite the substantial progress achieved by large-scale DNA sequence pretraining, existing studies have overwhelmingly emphasized pretraining scale and custom downstream evaluation datasets, while neglecting some essential components of the pretraining paradigm. In this paper, we reveal three critical yet heretofore overlooked problems in DNA pretraining: inappropriate downstream datasets, inherent flaws in the neighbor-masking strategy, and the lack of detailed discussion on vocabulary. Therefore, we undertake comprehensive investigations and propose principled guidelines, including selection criteria for evaluation datasets, guiding task design, and in-depth vocabulary analysis. Extensive experiments validate the significance of our identified problems and support the rationale behind our recommendations. Finally, we introduce a standardized testbed that enables reproducible and rigorous benchmarking of DNA pretraining methods to advance the development of genomic foundation models.
- Abstract(参考訳): DNA配列のコード化は、遺伝子機能予測、タンパク質合成、下流の様々な生物学的タスクの基礎である。
大規模なDNAシークエンスプレトレーニングによって達成された大きな進歩にもかかわらず、既存の研究は、事前トレーニングのパラダイムの本質的な構成要素を無視しながら、事前トレーニングスケールとカスタム下流評価データセットを圧倒的に強調してきた。
本稿では,DNAプレトレーニングにおける問題点として,不適切な下流データセット,近隣のマスキング戦略に固有の欠陥,語彙に関する詳細な議論の欠如の3つを明らかにする。
そこで我々は包括的調査を行い、評価データセットの選択基準、指導課題設計、詳細な語彙分析を含む原則的ガイドラインを提案する。
広範囲にわたる実験は、特定された問題の重要性を検証し、勧告の背後にある根拠を支持する。
最後に,DNAプレトレーニング手法の再現性と厳密なベンチマークを可能にし,ゲノム基盤モデルの開発を促進するための標準化テストベッドを提案する。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - Toward Understanding BERT-Like Pre-Training for DNA Foundation Models [78.48760388079523]
既存のDNA配列の事前訓練方法は、NLPからのBERT事前訓練の直接的な採用に依存している。
マスク境界を連続的に拡張することにより,BERTライクな事前学習作業の難易度を徐々に向上させるRandomMaskという新しい手法を提案する。
RandomMaskは、マシューのエピジェネティック・マーク・予測の相関係数の68.16%を突破し、ベースラインの19.85%を突破した。
論文 参考訳(メタデータ) (2023-10-11T16:40:57Z) - Efficient Prediction of Peptide Self-assembly through Sequential and
Graphical Encoding [57.89530563948755]
この研究は、高度なディープラーニングモデルを用いたペプチドエンコーディングのベンチマーク分析を提供する。
等電点や水和自由エネルギーなど、幅広いペプチド関連予測のガイドとして機能する。
論文 参考訳(メタデータ) (2023-07-17T00:43:33Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。