Fugu-MT 論文翻訳(概要): DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome

論文の概要: DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome

arxiv url: http://arxiv.org/abs/2306.15006v1
Date: Mon, 26 Jun 2023 18:43:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 15:50:00.082517
Title: DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome
Title（参考訳）: DNABERT-2:多種ゲノムの効率的な基盤モデルとベンチマーク
Authors: Zhihan Zhou, Yanrong Ji, Weijian Li, Pratik Dutta, Ramana Davuluri, Han Liu
Abstract要約: 我々は、k-merのトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。我々は、k-merトークン化をByte Pair$(BPE)に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。 DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
参考スコア（独自算出の注目度）: 15.051816241193753
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Decoding the linguistic intricacies of the genome is a crucial problem in biology, and pre-trained foundational models such as DNABERT and Nucleotide Transformer have made significant strides in this area. Existing works have largely hinged on k-mer, fixed-length permutations of A, T, C, and G, as the token of the genome language due to its simplicity. However, we argue that the computation and sample inefficiencies introduced by k-mer tokenization are primary obstacles in developing large genome foundational models. We provide conceptual and empirical insights into genome tokenization, building on which we propose to replace k-mer tokenization with Byte Pair Encoding (BPE), a statistics-based data compression algorithm that constructs tokens by iteratively merging the most frequent co-occurring genome segment in the corpus. We demonstrate that BPE not only overcomes the limitations of k-mer tokenization but also benefits from the computational efficiency of non-overlapping tokenization. Based on these insights, we introduce DNABERT-2, a refined genome foundation model that adapts an efficient tokenizer and employs multiple strategies to overcome input length constraints, reduce time and memory expenditure, and enhance model capability. Furthermore, we identify the absence of a comprehensive and standardized benchmark for genome understanding as another significant impediment to fair comparative analysis. In response, we propose the Genome Understanding Evaluation (GUE), a comprehensive multi-species genome classification dataset that amalgamates $28$ distinct datasets across $7$ tasks, with input lengths ranging from $70$ to $1000$. Through comprehensive experiments on the GUE benchmark, we demonstrate that DNABERT-2 achieves comparable performance to the state-of-the-art model with $21 \times$ fewer parameters and approximately $56 \times$ less GPU time in pre-training.
Abstract（参考訳）: ゲノムの言語的複雑さの解読は生物学において重要な問題であり、dnabertやヌクレオチドトランスフォーマーのような事前訓練された基礎モデルがこの領域で大きな進歩を遂げている。既存の研究は、A、T、C、Gのk-mer、固定長の置換に、その単純さからゲノム言語のトークンとして大きく依存している。しかし、k-merのトークン化によって引き起こされる計算とサンプルの非効率性は、大規模なゲノム基盤モデルの開発における主要な障害である。そこで我々は,k-merのトークン化をByte Pair Encoding (BPE) に置き換えることを提案する。これは統計に基づくデータ圧縮アルゴリズムで,コーパス内の最も頻繁な共起ゲノムセグメントを反復的にマージすることでトークンを構築する。我々は,bpeがk-merトークン化の限界を克服するだけでなく,非重複トークン化の計算効率の利点を実証する。これらの知見に基づき,DNABERT-2を導入した。DNABERT-2は効率的なプロテタイザに適応し,入力長制約を克服し,時間とメモリ消費を低減し,モデル機能を向上させる。さらに、ゲノム理解のための包括的かつ標準化されたベンチマークが欠如していることは、公平な比較分析の別の重要な障害であると考えられる。そこで我々は,7ドルのタスクにまたがる28ドルの異なるデータセットを融合し,70ドルから1000ドルの入力長を持つ包括的多種多様なゲノム分類データセットであるゲノム理解評価(gue)を提案する。 gueベンチマークの包括的な実験を通じて、dnabert-2は21 \times$のパラメータと約56 \times$のプリトレーニング時のgpu時間と同等の性能を達成できることを実証した。

関連論文リスト

Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods [0.0]
従来のk-merトークン化は、局所的なDNA配列構造を捉えるのに効果的であるが、しばしば課題に直面している。選択したBPEトークンを600のBPEサイクルで生成し,ユニークな6merトークンと組み合わせることを提案する。このハイブリッドアプローチにより、バランスの取れたコンテキスト対応の語彙が保証され、モデルがショートパターンとロングパターンの両方をキャプチャできる。
論文参考訳（メタデータ） (2025-07-24T16:45:23Z)
Learning Genomic Structure from $k$-mers [2.07180164747172]
コントラスト学習を用いて読み出しデータを解析する手法を提案する。エンコーダモデルは、同じゲノム領域から配列をまとめる埋め込みを生成するために訓練される。モデルはまた、読み取りデータに基づいて完全に自己教師された訓練も可能で、完全なゲノム組立を構築することなく分析が可能である。
論文参考訳（メタデータ） (2025-05-22T13:46:18Z)
When repeats drive the vocabulary: a Byte-Pair Encoding analysis of T2T primate genomes [0.0]
我々は、我々のカスタムツールであるdnaBPEを用いて512,000トークンの固定語彙で独立したBPEトークンライザを訓練する。分析の結果、すべてのアセンブリで11,569個のトークンが共有されているのに対し、991,854個のトークンは1つのゲノムに固有のものであることがわかった。我々は、ゲノムトークン化を洗練するための潜在的ハイブリッド戦略と繰り返しマスキングアプローチについて議論する。
論文参考訳（メタデータ） (2025-05-13T19:27:58Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文参考訳（メタデータ） (2024-12-18T10:55:43Z)
dnaGrinder: a lightweight and high-capacity genomic foundation model [11.646351318648499]
現在のゲノム基盤モデルは、しばしば重要なトレードオフに直面している。我々は、ユニークで効率的なゲノム基盤モデルであるdnaGrinderを紹介する。 dnaGrinderはゲノム配列内の長距離依存関係を管理するのに優れ、性能を損なうことなく計算コストを最小化できる。
論文参考訳（メタデータ） (2024-09-24T03:20:07Z)
Unlocking Efficiency: Adaptive Masking for Gene Transformer Models [19.699485326192846]
Nucleotide Transformer、DNABert、LOGOなどの遺伝子トランスフォーマーモデルは最適な遺伝子配列を学習するために訓練されている。遺伝子配列は、NLPドメインの単語や文に似たよく定義された意味単位を持たない。提案したCM-GEMS(Curriculum Masking-based Gene Masking Strategy)は,優れた表現学習能力を示す。
論文参考訳（メタデータ） (2024-08-13T19:45:02Z)
VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文参考訳（メタデータ） (2024-05-13T20:15:03Z)
Efficient and Scalable Fine-Tune of Language Models for Genome Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。 DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。 textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文参考訳（メタデータ） (2024-02-12T21:40:45Z)
BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文参考訳（メタデータ） (2023-11-21T12:34:00Z)
DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文参考訳（メタデータ） (2023-07-11T06:30:43Z)
HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。 Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文参考訳（メタデータ） (2023-06-27T20:46:34Z)
SNP2Vec: Scalable Self-Supervised Pre-Training for Genome-Wide Association Study [48.75445626157713]
SNP2Vecは、SNPを理解するためのスケーラブルな自己教師付き事前学習手法である。本研究では,SNP2Vecを用いて時系列ゲノミクスモデリングを行う。中国コホートにおけるアルツハイマー病のリスク予測におけるアプローチの有効性について検討した。
論文参考訳（メタデータ） (2022-04-14T01:53:58Z)
Multi-modal Self-supervised Pre-training for Regulatory Genome Across Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文参考訳（メタデータ） (2021-10-11T12:48:44Z)
Brain Image Synthesis with Unsupervised Multivariate Canonical CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文参考訳（メタデータ） (2021-03-22T05:19:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。