論文の概要: BarcodeMamba: State Space Models for Biodiversity Analysis
- arxiv url: http://arxiv.org/abs/2412.11084v1
- Date: Sun, 15 Dec 2024 06:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 15:49:59.996946
- Title: BarcodeMamba: State Space Models for Biodiversity Analysis
- Title(参考訳): BarcodeMamba: 生物多様性分析のための状態空間モデル
- Authors: Tiancheng Gao, Graham W. Taylor,
- Abstract要約: BarcodeMambaは、生物多様性分析におけるDNAバーコードのパフォーマンスと効率的な基礎モデルである。
本研究は,BarcodeMambaがパラメータの8.3%しか使用していない場合でも,BarcodeBERTよりも優れた性能を示した。
スケーリング調査では、BarcodeBERTのパラメータの63.6%のBarcodeMambaが、1-nearest neighbor(1-NN)探索で70.2%の遺伝子レベルの精度を達成した。
- 参考スコア(独自算出の注目度): 14.524535359259414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DNA barcodes are crucial in biodiversity analysis for building automatic identification systems that recognize known species and discover unseen species. Unlike human genome modeling, barcode-based invertebrate identification poses challenges in the vast diversity of species and taxonomic complexity. Among Transformer-based foundation models, BarcodeBERT excelled in species-level identification of invertebrates, highlighting the effectiveness of self-supervised pretraining on barcode-specific datasets. Recently, structured state space models (SSMs) have emerged, with a time complexity that scales sub-quadratically with the context length. SSMs provide an efficient parameterization of sequence modeling relative to attention-based architectures. Given the success of Mamba and Mamba-2 in natural language, we designed BarcodeMamba, a performant and efficient foundation model for DNA barcodes in biodiversity analysis. We conducted a comprehensive ablation study on the impacts of self-supervised training and tokenization methods, and compared both versions of Mamba layers in terms of expressiveness and their capacity to identify "unseen" species held back from training. Our study shows that BarcodeMamba has better performance than BarcodeBERT even when using only 8.3% as many parameters, and improves accuracy to 99.2% on species-level accuracy in linear probing without fine-tuning for "seen" species. In our scaling study, BarcodeMamba with 63.6% of BarcodeBERT's parameters achieved 70.2% genus-level accuracy in 1-nearest neighbor (1-NN) probing for unseen species. The code repository to reproduce our experiments is available at https://github.com/bioscan-ml/BarcodeMamba.
- Abstract(参考訳): DNAバーコードは、既知の種を認識し、未知の種を発見する自動識別システムを構築するために、生物多様性解析に不可欠である。
ヒトのゲノムモデリングとは異なり、バーコードに基づく無脊椎動物同定は多様な種の多様性と分類学的複雑さに課題をもたらす。
Transformerベースの基盤モデルの中で、BarcodeBERTは無脊椎動物の種レベルでの同定に優れており、バーコード固有のデータセットに対する自己教師付き事前訓練の有効性を強調している。
近年、構造化状態空間モデル (Structured State Space Model, SSM) が登場し、コンテキスト長と準四分法的にスケールする時間複雑性が出現している。
SSMは、注意に基づくアーキテクチャと比較して、シーケンスモデリングの効率的なパラメータ化を提供する。
自然言語におけるMambaとMamba-2の成功を踏まえ,生物多様性解析におけるDNAバーコードの性能と効率的な基礎モデルであるBarcodeMambaを設計した。
自己監督型トレーニングとトークン化法の効果に関する総合的アブレーション研究を行い, 両版とも表現力と「見えない」種を識別する能力について比較した。
本研究により,BarcodeMambaはパラメータの8.3%しか使用していない場合でも,BarcodeBERTよりも優れた性能を示し,種レベルでの精度を99.2%向上させることができた。
スケーリング調査では、BarcodeBERTのパラメータの63.6%のBarcodeMambaが、1-nearest neighbor(1-NN)探索で70.2%の遺伝子レベルの精度を達成した。
実験を再現するコードリポジトリはhttps://github.com/bioscan-ml/BarcodeMamba.comで公開されている。
関連論文リスト
- Bidirectional Mamba for Single-Cell Data: Efficient Context Learning with Biological Fidelity [0.39945675027960637]
我々は、状態空間モデリングに基づいて構築された単一セル転写学のスケーラブルで効率的な基礎モデルであるGeneMambaを紹介した。
GeneMambaは、双方向の遺伝子コンテキストを線形時間複雑性でキャプチャし、トランスフォーマーベースラインよりもかなりの計算的ゲインを提供する。
我々は、マルチバッチ統合、細胞型アノテーション、遺伝子-遺伝子相関など様々なタスクにまたがってGeneMambaを評価し、高い性能、解釈可能性、堅牢性を示す。
論文 参考訳(メタデータ) (2025-04-22T20:34:47Z) - TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity [19.003642885871546]
BIOSCAN-5Mは、500万以上の昆虫の標本のマルチモーダル情報を含む包括的データセットである。
マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。
論文 参考訳(メタデータ) (2024-06-18T15:45:21Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale [21.995678534789615]
コントラスト学習を用いて画像、バーコードDNA、および統合埋め込み空間における分類ラベルのテキストベース表現を整列する。
本手法は、ゼロショット学習タスクにおいて、従来の単一モダリティアプローチを8%以上精度で上回る。
論文 参考訳(メタデータ) (2024-05-27T17:57:48Z) - MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.03687787922032]
長距離モデリングと線形効率の優れたマンバモデルが注目されている。
MambaADは、事前訓練されたエンコーダと(Locality-Enhanced State Space)LSSモジュールをマルチスケールで備えたMambaデコーダで構成されている。
提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-04-09T18:28:55Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - BarcodeBERT: Transformers for Biodiversity Analysis [19.082058886309028]
本稿では,生物多様性解析のための自己管理手法BarcodeBERTを提案する。
大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
論文 参考訳(メタデータ) (2023-11-04T13:25:49Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Towards ML Methods for Biodiversity: A Novel Wild Bee Dataset and
Evaluations of XAI Methods for ML-Assisted Rare Species Annotations [3.947933139348889]
昆虫は私たちの生態系の重要な部分です。残念ながら、ここ数十年で、虫の数は大幅に減少しています。
このプロセスをよりよく理解し、昆虫の個体数を監視するために、Deep Learningは実行可能なソリューションを提供するかもしれない。
本稿では,iNaturalistデータベースから採取した野生ミツバチの詳細な注釈画像のデータセットを提案する。
ワイルドビーデータセットでトレーニングされたResNetモデルは、他のきめ細かいデータセットでトレーニングされた同様の最先端モデルに匹敵する分類スコアを達成する。
論文 参考訳(メタデータ) (2022-06-15T12:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。