論文の概要: BarcodeBERT: Transformers for Biodiversity Analysis
- arxiv url: http://arxiv.org/abs/2311.02401v1
- Date: Sat, 4 Nov 2023 13:25:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 17:42:02.297476
- Title: BarcodeBERT: Transformers for Biodiversity Analysis
- Title(参考訳): BarcodeBERT:生物多様性分析用トランス
- Authors: Pablo Millan Arias and Niousha Sadjadi and Monireh Safari and ZeMing
Gong and Austin T. Wang and Scott C. Lowe and Joakim Bruslund Haurum and
Iuliia Zarubiieva and Dirk Steinke and Lila Kari and Angel X. Chang and
Graham W. Taylor
- Abstract要約: 本稿では,生物多様性解析のための自己管理手法BarcodeBERTを提案する。
大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
- 参考スコア(独自算出の注目度): 19.082058886309028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding biodiversity is a global challenge, in which DNA barcodes -
short snippets of DNA that cluster by species - play a pivotal role. In
particular, invertebrates, a highly diverse and under-explored group, pose
unique taxonomic complexities. We explore machine learning approaches,
comparing supervised CNNs, fine-tuned foundation models, and a DNA
barcode-specific masking strategy across datasets of varying complexity. While
simpler datasets and tasks favor supervised CNNs or fine-tuned transformers,
challenging species-level identification demands a paradigm shift towards
self-supervised pretraining. We propose BarcodeBERT, the first self-supervised
method for general biodiversity analysis, leveraging a 1.5 M invertebrate DNA
barcode reference library. This work highlights how dataset specifics and
coverage impact model selection, and underscores the role of self-supervised
pretraining in achieving high-accuracy DNA barcode-based identification at the
species and genus level. Indeed, without the fine-tuning step, BarcodeBERT
pretrained on a large DNA barcode dataset outperforms DNABERT and DNABERT-2 on
multiple downstream classification tasks. The code repository is available at
https://github.com/Kari-Genomics-Lab/BarcodeBERT
- Abstract(参考訳): 生物多様性を理解することはグローバルな課題であり、DNAのバーコードショート断片が種によってクラスター化され、重要な役割を果たす。
特に、非常に多様で未調査の群である無脊椎動物は、独特の分類学的複合体を呈する。
我々は、教師付きCNN、微調整された基礎モデル、複雑度の異なるデータセット間でのDNAバーコード固有のマスキング戦略など、機械学習アプローチについて検討する。
単純なデータセットやタスクは教師付きcnnや微調整されたトランスフォーマーを好むが、種レベルでの識別には、自己教師付き事前トレーニングへのパラダイムシフトが必要である。
本稿では, 1.5Mの無脊椎動物DNAバーコード参照ライブラリを利用した, 生物多様性解析のための初の自己管理手法BarcodeBERTを提案する。
この研究は、データセットの特定とカバレッジがモデル選択にどのように影響するかを強調し、種と属レベルでの高精度なDNAバーコードに基づく識別を達成する上で、自己教師付き事前訓練の役割を強調している。
実際、細調整のステップなしで、大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
コードリポジトリはhttps://github.com/Kari-Genomics-Lab/BarcodeBERTで公開されている。
関連論文リスト
- Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - BarcodeMamba: State Space Models for Biodiversity Analysis [14.524535359259414]
BarcodeMambaは、生物多様性分析におけるDNAバーコードのパフォーマンスと効率的な基礎モデルである。
本研究は,BarcodeMambaがパラメータの8.3%しか使用していない場合でも,BarcodeBERTよりも優れた性能を示した。
スケーリング調査では、BarcodeBERTのパラメータの63.6%のBarcodeMambaが、1-nearest neighbor(1-NN)探索で70.2%の遺伝子レベルの精度を達成した。
論文 参考訳(メタデータ) (2024-12-15T06:52:18Z) - BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity [19.003642885871546]
BIOSCAN-5Mは、500万以上の昆虫の標本のマルチモーダル情報を含む包括的データセットである。
マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。
論文 参考訳(メタデータ) (2024-06-18T15:45:21Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - BEND: Benchmarking DNA Language Models on biologically meaningful tasks [7.005668635562045]
DNA言語モデルのベンチマークであるBENDを紹介し、現実的で生物学的に意味のある下流タスクのコレクションを特徴とする。
現在のDNA LMからの埋め込みは、一部のタスクにおいて専門家メソッドのパフォーマンスにアプローチできるが、長距離機能に関する限られた情報しか取得できない。
論文 参考訳(メタデータ) (2023-11-21T12:34:00Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Multi-modal Self-supervised Pre-training for Regulatory Genome Across
Cell Types [75.65676405302105]
我々は、GeneBERTと呼ばれる、多モードかつ自己管理的な方法でゲノムデータを事前学習するための、単純かつ効果的なアプローチを提案する。
我々はATAC-seqデータセットで1700万のゲノム配列でモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-11T12:48:44Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。