論文の概要: BarcodeBERT: Transformers for Biodiversity Analysis
- arxiv url: http://arxiv.org/abs/2311.02401v2
- Date: Wed, 22 Jan 2025 00:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:11.745425
- Title: BarcodeBERT: Transformers for Biodiversity Analysis
- Title(参考訳): BarcodeBERT: 生物多様性分析のためのトランスフォーマー
- Authors: Pablo Millan Arias, Niousha Sadjadi, Monireh Safari, ZeMing Gong, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Dirk Steinke, Lila Kari, Angel X. Chang, Scott C. Lowe, Graham W. Taylor,
- Abstract要約: 本稿では,生物多様性分析に適したモデル群であるBarcodeBERTを紹介する。
BarcodeBERTは1.5Mの無脊椎動物DNAバーコードからなる参照ライブラリのデータにのみ訓練される。
- 参考スコア(独自算出の注目度): 18.582770076266737
- License:
- Abstract: In the global challenge of understanding and characterizing biodiversity, short species-specific genomic sequences known as DNA barcodes play a critical role, enabling fine-grained comparisons among organisms within the same kingdom of life. Although machine learning algorithms specifically designed for the analysis of DNA barcodes are becoming more popular, most existing methodologies rely on generic supervised training algorithms. We introduce BarcodeBERT, a family of models tailored to biodiversity analysis and trained exclusively on data from a reference library of 1.5M invertebrate DNA barcodes. We compared the performance of BarcodeBERT on taxonomic identification tasks against a spectrum of machine learning approaches including supervised training of classical neural architectures and fine-tuning of general DNA foundation models. Our self-supervised pretraining strategies on domain-specific data outperform fine-tuned foundation models, especially in identification tasks involving lower taxa such as genera and species. We also compared BarcodeBERT with BLAST, one of the most widely used bioinformatics tools for sequence searching, and found that our method matched BLAST's performance in species-level classification while being 55 times faster. Our analysis of masking and tokenization strategies also provides practical guidance for building customized DNA language models, emphasizing the importance of aligning model training strategies with dataset characteristics and domain knowledge. The code repository is available at https://github.com/bioscan-ml/BarcodeBERT.
- Abstract(参考訳): 生物多様性の理解と特徴化という世界的な課題では、DNAバーコードとして知られる短い種特異的ゲノム配列が重要な役割を担い、同じ生命の王国の生物間できめ細かい比較を可能にする。
DNAバーコードの解析に特化して設計された機械学習アルゴリズムが普及しているが、既存のほとんどの手法は一般的な教師付きトレーニングアルゴリズムに依存している。
本稿では,生物多様性分析に適したモデル群であるBarcodeBERTを紹介する。
我々は,古典的ニューラルネットワークアーキテクチャの教師あり学習やDNA基盤モデルの微調整など,分類学的同定タスクにおけるBarcodeBERTの性能を,機械学習アプローチのスペクトルと比較した。
ドメイン固有データに対する事前学習の自己指導は、特に属や種などの下位分類群を含む識別タスクにおいて、微調整基礎モデルよりも優れている。
また,BalcodeBERTとBLASTを比較したところ,本手法は種レベルの分類におけるBLASTの性能と55倍の速さで一致していることがわかった。
マスキングおよびトークン化戦略の分析は、モデルトレーニング戦略をデータセットの特徴やドメイン知識と整合させることの重要性を強調するとともに、カスタマイズされたDNA言語モデルを構築するための実践的なガイダンスも提供する。
コードリポジトリはhttps://github.com/bioscan-ml/BarcodeBERT.comで公開されている。
関連論文リスト
- Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - BarcodeMamba: State Space Models for Biodiversity Analysis [14.524535359259414]
BarcodeMambaは、生物多様性分析におけるDNAバーコードのパフォーマンスと効率的な基礎モデルである。
本研究は,BarcodeMambaがパラメータの8.3%しか使用していない場合でも,BarcodeBERTよりも優れた性能を示した。
スケーリング調査では、BarcodeBERTのパラメータの63.6%のBarcodeMambaが、1-nearest neighbor(1-NN)探索で70.2%の遺伝子レベルの精度を達成した。
論文 参考訳(メタデータ) (2024-12-15T06:52:18Z) - BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity [19.003642885871546]
BIOSCAN-5Mは、500万以上の昆虫の標本のマルチモーダル情報を含む包括的データセットである。
マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。
論文 参考訳(メタデータ) (2024-06-18T15:45:21Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。