論文の概要: BarcodeBERT: Transformers for Biodiversity Analysis
- arxiv url: http://arxiv.org/abs/2311.02401v2
- Date: Wed, 22 Jan 2025 00:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:11.745425
- Title: BarcodeBERT: Transformers for Biodiversity Analysis
- Title(参考訳): BarcodeBERT: 生物多様性分析のためのトランスフォーマー
- Authors: Pablo Millan Arias, Niousha Sadjadi, Monireh Safari, ZeMing Gong, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Dirk Steinke, Lila Kari, Angel X. Chang, Scott C. Lowe, Graham W. Taylor,
- Abstract要約: 本稿では,生物多様性分析に適したモデル群であるBarcodeBERTを紹介する。
BarcodeBERTは1.5Mの無脊椎動物DNAバーコードからなる参照ライブラリのデータにのみ訓練される。
- 参考スコア(独自算出の注目度): 18.582770076266737
- License:
- Abstract: In the global challenge of understanding and characterizing biodiversity, short species-specific genomic sequences known as DNA barcodes play a critical role, enabling fine-grained comparisons among organisms within the same kingdom of life. Although machine learning algorithms specifically designed for the analysis of DNA barcodes are becoming more popular, most existing methodologies rely on generic supervised training algorithms. We introduce BarcodeBERT, a family of models tailored to biodiversity analysis and trained exclusively on data from a reference library of 1.5M invertebrate DNA barcodes. We compared the performance of BarcodeBERT on taxonomic identification tasks against a spectrum of machine learning approaches including supervised training of classical neural architectures and fine-tuning of general DNA foundation models. Our self-supervised pretraining strategies on domain-specific data outperform fine-tuned foundation models, especially in identification tasks involving lower taxa such as genera and species. We also compared BarcodeBERT with BLAST, one of the most widely used bioinformatics tools for sequence searching, and found that our method matched BLAST's performance in species-level classification while being 55 times faster. Our analysis of masking and tokenization strategies also provides practical guidance for building customized DNA language models, emphasizing the importance of aligning model training strategies with dataset characteristics and domain knowledge. The code repository is available at https://github.com/bioscan-ml/BarcodeBERT.
- Abstract(参考訳): 生物多様性の理解と特徴化という世界的な課題では、DNAバーコードとして知られる短い種特異的ゲノム配列が重要な役割を担い、同じ生命の王国の生物間できめ細かい比較を可能にする。
DNAバーコードの解析に特化して設計された機械学習アルゴリズムが普及しているが、既存のほとんどの手法は一般的な教師付きトレーニングアルゴリズムに依存している。
本稿では,生物多様性分析に適したモデル群であるBarcodeBERTを紹介する。
我々は,古典的ニューラルネットワークアーキテクチャの教師あり学習やDNA基盤モデルの微調整など,分類学的同定タスクにおけるBarcodeBERTの性能を,機械学習アプローチのスペクトルと比較した。
ドメイン固有データに対する事前学習の自己指導は、特に属や種などの下位分類群を含む識別タスクにおいて、微調整基礎モデルよりも優れている。
また,BalcodeBERTとBLASTを比較したところ,本手法は種レベルの分類におけるBLASTの性能と55倍の速さで一致していることがわかった。
マスキングおよびトークン化戦略の分析は、モデルトレーニング戦略をデータセットの特徴やドメイン知識と整合させることの重要性を強調するとともに、カスタマイズされたDNA言語モデルを構築するための実践的なガイダンスも提供する。
コードリポジトリはhttps://github.com/bioscan-ml/BarcodeBERT.comで公開されている。
関連論文リスト
- Improving Taxonomic Image-based Out-of-distribution Detection With DNA Barcodes [6.1593136743688355]
また,DNAバーコードを用いて,外来DNA配列の類似性に基づいて,外来画像の検索を支援することができるかを検討した。
提案手法は,すべての共通基準値と比較して,分類学的OODの検出を改善できることを実験的に示す。
論文 参考訳(メタデータ) (2024-06-27T08:39:16Z) - BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity [19.003642885871546]
BIOSCAN-5Mは、500万以上の昆虫の標本のマルチモーダル情報を含む包括的データセットである。
マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。
論文 参考訳(メタデータ) (2024-06-18T15:45:21Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Semi-supervised deep learning based on label propagation in a 2D
embedded space [117.9296191012968]
提案されたソリューションは、少数の教師なしイメージから多数の教師なしイメージにラベルを伝達し、ディープニューラルネットワークモデルをトレーニングする。
本稿では、より正確なラベル付きサンプルを反復してセットから深層ニューラルネットワーク(VGG-16)をトレーニングするループを提案する。
ラベル付きセットがイテレーションに沿って改善されるにつれて、ニューラルネットワークの機能が改善される。
論文 参考訳(メタデータ) (2020-08-02T20:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。