論文の概要: BarcodeBERT: Transformers for Biodiversity Analysis
- arxiv url: http://arxiv.org/abs/2311.02401v1
- Date: Sat, 4 Nov 2023 13:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:42:02.297476
- Title: BarcodeBERT: Transformers for Biodiversity Analysis
- Title(参考訳): BarcodeBERT:生物多様性分析用トランス
- Authors: Pablo Millan Arias and Niousha Sadjadi and Monireh Safari and ZeMing
Gong and Austin T. Wang and Scott C. Lowe and Joakim Bruslund Haurum and
Iuliia Zarubiieva and Dirk Steinke and Lila Kari and Angel X. Chang and
Graham W. Taylor
- Abstract要約: 本稿では,生物多様性解析のための自己管理手法BarcodeBERTを提案する。
大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
- 参考スコア(独自算出の注目度): 19.082058886309028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding biodiversity is a global challenge, in which DNA barcodes -
short snippets of DNA that cluster by species - play a pivotal role. In
particular, invertebrates, a highly diverse and under-explored group, pose
unique taxonomic complexities. We explore machine learning approaches,
comparing supervised CNNs, fine-tuned foundation models, and a DNA
barcode-specific masking strategy across datasets of varying complexity. While
simpler datasets and tasks favor supervised CNNs or fine-tuned transformers,
challenging species-level identification demands a paradigm shift towards
self-supervised pretraining. We propose BarcodeBERT, the first self-supervised
method for general biodiversity analysis, leveraging a 1.5 M invertebrate DNA
barcode reference library. This work highlights how dataset specifics and
coverage impact model selection, and underscores the role of self-supervised
pretraining in achieving high-accuracy DNA barcode-based identification at the
species and genus level. Indeed, without the fine-tuning step, BarcodeBERT
pretrained on a large DNA barcode dataset outperforms DNABERT and DNABERT-2 on
multiple downstream classification tasks. The code repository is available at
https://github.com/Kari-Genomics-Lab/BarcodeBERT
- Abstract(参考訳): 生物多様性を理解することはグローバルな課題であり、DNAのバーコードショート断片が種によってクラスター化され、重要な役割を果たす。
特に、非常に多様で未調査の群である無脊椎動物は、独特の分類学的複合体を呈する。
我々は、教師付きCNN、微調整された基礎モデル、複雑度の異なるデータセット間でのDNAバーコード固有のマスキング戦略など、機械学習アプローチについて検討する。
単純なデータセットやタスクは教師付きcnnや微調整されたトランスフォーマーを好むが、種レベルでの識別には、自己教師付き事前トレーニングへのパラダイムシフトが必要である。
本稿では, 1.5Mの無脊椎動物DNAバーコード参照ライブラリを利用した, 生物多様性解析のための初の自己管理手法BarcodeBERTを提案する。
この研究は、データセットの特定とカバレッジがモデル選択にどのように影響するかを強調し、種と属レベルでの高精度なDNAバーコードに基づく識別を達成する上で、自己教師付き事前訓練の役割を強調している。
実際、細調整のステップなしで、大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
コードリポジトリはhttps://github.com/Kari-Genomics-Lab/BarcodeBERTで公開されている。
関連論文リスト
- Improving Taxonomic Image-based Out-of-distribution Detection With DNA Barcodes [6.1593136743688355]
また,DNAバーコードを用いて,外来DNA配列の類似性に基づいて,外来画像の検索を支援することができるかを検討した。
提案手法は,すべての共通基準値と比較して,分類学的OODの検出を改善できることを実験的に示す。
論文 参考訳(メタデータ) (2024-06-27T08:39:16Z) - BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity [19.003642885871546]
BIOSCAN-5Mは、500万以上の昆虫の標本のマルチモーダル情報を含む包括的データセットである。
マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。
論文 参考訳(メタデータ) (2024-06-18T15:45:21Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Semi-supervised deep learning based on label propagation in a 2D
embedded space [117.9296191012968]
提案されたソリューションは、少数の教師なしイメージから多数の教師なしイメージにラベルを伝達し、ディープニューラルネットワークモデルをトレーニングする。
本稿では、より正確なラベル付きサンプルを反復してセットから深層ニューラルネットワーク(VGG-16)をトレーニングするループを提案する。
ラベル付きセットがイテレーションに沿って改善されるにつれて、ニューラルネットワークの機能が改善される。
論文 参考訳(メタデータ) (2020-08-02T20:08:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。