論文の概要: BarcodeMamba: State Space Models for Biodiversity Analysis
- arxiv url: http://arxiv.org/abs/2412.11084v1
- Date: Sun, 15 Dec 2024 06:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:11.140436
- Title: BarcodeMamba: State Space Models for Biodiversity Analysis
- Title(参考訳): BarcodeMamba: 生物多様性分析のための状態空間モデル
- Authors: Tiancheng Gao, Graham W. Taylor,
- Abstract要約: BarcodeMambaは、生物多様性分析におけるDNAバーコードのパフォーマンスと効率的な基礎モデルである。
本研究は,BarcodeMambaがパラメータの8.3%しか使用していない場合でも,BarcodeBERTよりも優れた性能を示した。
スケーリング調査では、BarcodeBERTのパラメータの63.6%のBarcodeMambaが、1-nearest neighbor(1-NN)探索で70.2%の遺伝子レベルの精度を達成した。
- 参考スコア(独自算出の注目度): 14.524535359259414
- License:
- Abstract: DNA barcodes are crucial in biodiversity analysis for building automatic identification systems that recognize known species and discover unseen species. Unlike human genome modeling, barcode-based invertebrate identification poses challenges in the vast diversity of species and taxonomic complexity. Among Transformer-based foundation models, BarcodeBERT excelled in species-level identification of invertebrates, highlighting the effectiveness of self-supervised pretraining on barcode-specific datasets. Recently, structured state space models (SSMs) have emerged, with a time complexity that scales sub-quadratically with the context length. SSMs provide an efficient parameterization of sequence modeling relative to attention-based architectures. Given the success of Mamba and Mamba-2 in natural language, we designed BarcodeMamba, a performant and efficient foundation model for DNA barcodes in biodiversity analysis. We conducted a comprehensive ablation study on the impacts of self-supervised training and tokenization methods, and compared both versions of Mamba layers in terms of expressiveness and their capacity to identify "unseen" species held back from training. Our study shows that BarcodeMamba has better performance than BarcodeBERT even when using only 8.3% as many parameters, and improves accuracy to 99.2% on species-level accuracy in linear probing without fine-tuning for "seen" species. In our scaling study, BarcodeMamba with 63.6% of BarcodeBERT's parameters achieved 70.2% genus-level accuracy in 1-nearest neighbor (1-NN) probing for unseen species. The code repository to reproduce our experiments is available at https://github.com/bioscan-ml/BarcodeMamba.
- Abstract(参考訳): DNAバーコードは、既知の種を認識し、未知の種を発見する自動識別システムを構築するために、生物多様性解析に不可欠である。
ヒトのゲノムモデリングとは異なり、バーコードに基づく無脊椎動物同定は多様な種の多様性と分類学的複雑さに課題をもたらす。
Transformerベースの基盤モデルの中で、BarcodeBERTは無脊椎動物の種レベルでの同定に優れており、バーコード固有のデータセットに対する自己教師付き事前訓練の有効性を強調している。
近年、構造化状態空間モデル (Structured State Space Model, SSM) が登場し、コンテキスト長と準四分法的にスケールする時間複雑性が出現している。
SSMは、注意に基づくアーキテクチャと比較して、シーケンスモデリングの効率的なパラメータ化を提供する。
自然言語におけるMambaとMamba-2の成功を踏まえ,生物多様性解析におけるDNAバーコードの性能と効率的な基礎モデルであるBarcodeMambaを設計した。
自己監督型トレーニングとトークン化法の効果に関する総合的アブレーション研究を行い, 両版とも表現力と「見えない」種を識別する能力について比較した。
本研究により,BarcodeMambaはパラメータの8.3%しか使用していない場合でも,BarcodeBERTよりも優れた性能を示し,種レベルでの精度を99.2%向上させることができた。
スケーリング調査では、BarcodeBERTのパラメータの63.6%のBarcodeMambaが、1-nearest neighbor(1-NN)探索で70.2%の遺伝子レベルの精度を達成した。
実験を再現するコードリポジトリはhttps://github.com/bioscan-ml/BarcodeMamba.comで公開されている。
関連論文リスト
- Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。
このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T14:10:33Z) - BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity [19.003642885871546]
BIOSCAN-5Mは、500万以上の昆虫の標本のマルチモーダル情報を含む包括的データセットである。
マルチモーダルデータ型が分類とクラスタリングの精度に与える影響を示すための3つのベンチマーク実験を提案する。
論文 参考訳(メタデータ) (2024-06-18T15:45:21Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - CLIBD: Bridging Vision and Genomics for Biodiversity Monitoring at Scale [21.995678534789615]
コントラスト学習を用いて画像、バーコードDNA、および統合埋め込み空間における分類ラベルのテキストベース表現を整列する。
本手法は、ゼロショット学習タスクにおいて、従来の単一モダリティアプローチを8%以上精度で上回る。
論文 参考訳(メタデータ) (2024-05-27T17:57:48Z) - MambaAD: Exploring State Space Models for Multi-class Unsupervised Anomaly Detection [53.03687787922032]
長距離モデリングと線形効率の優れたマンバモデルが注目されている。
MambaADは、事前訓練されたエンコーダと(Locality-Enhanced State Space)LSSモジュールをマルチスケールで備えたMambaデコーダで構成されている。
提案したLSSモジュールは、並列カスケード(Hybrid State Space) HSSブロックとマルチカーネル畳み込み操作を統合し、長距離情報とローカル情報の両方を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-04-09T18:28:55Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - BarcodeBERT: Transformers for Biodiversity Analysis [19.082058886309028]
本稿では,生物多様性解析のための自己管理手法BarcodeBERTを提案する。
大規模なDNAバーコードデータセットで事前訓練されたBarcodeBERTは、複数の下流分類タスクでDNABERTとDNABERT-2を上回っている。
論文 参考訳(メタデータ) (2023-11-04T13:25:49Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Towards ML Methods for Biodiversity: A Novel Wild Bee Dataset and
Evaluations of XAI Methods for ML-Assisted Rare Species Annotations [3.947933139348889]
昆虫は私たちの生態系の重要な部分です。残念ながら、ここ数十年で、虫の数は大幅に減少しています。
このプロセスをよりよく理解し、昆虫の個体数を監視するために、Deep Learningは実行可能なソリューションを提供するかもしれない。
本稿では,iNaturalistデータベースから採取した野生ミツバチの詳細な注釈画像のデータセットを提案する。
ワイルドビーデータセットでトレーニングされたResNetモデルは、他のきめ細かいデータセットでトレーニングされた同様の最先端モデルに匹敵する分類スコアを達成する。
論文 参考訳(メタデータ) (2022-06-15T12:48:05Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。