論文の概要: BarcodeMamba+: Advancing State-Space Models for Fungal Biodiversity Research
- arxiv url: http://arxiv.org/abs/2512.15931v1
- Date: Wed, 17 Dec 2025 19:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.801599
- Title: BarcodeMamba+: Advancing State-Space Models for Fungal Biodiversity Research
- Title(参考訳): BarcodeMamba+:真菌生物多様性研究のための状態空間モデルの改善
- Authors: Tiancheng Gao, Scott C. Lowe, Brendan Furneaux, Angel X Chang, Graham W. Taylor,
- Abstract要約: 本稿では,強力で効率的な状態空間モデルアーキテクチャ上に構築された真菌バーコード分類の基礎モデルを提案する。
我々は、このデータスパース環境において、従来の完全教師付き手法よりもはるかに効果的であることを実証した。
我々の研究はゲノムに基づく生物多様性研究のための強力な新しいツールを提供する。
- 参考スコア(独自算出の注目度): 19.401485543915452
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate taxonomic classification from DNA barcodes is a cornerstone of global biodiversity monitoring, yet fungi present extreme challenges due to sparse labelling and long-tailed taxa distributions. Conventional supervised learning methods often falter in this domain, struggling to generalize to unseen species and to capture the hierarchical nature of the data. To address these limitations, we introduce BarcodeMamba+, a foundation model for fungal barcode classification built on a powerful and efficient state-space model architecture. We employ a pretrain and fine-tune paradigm, which utilizes partially labelled data and we demonstrate this is substantially more effective than traditional fully-supervised methods in this data-sparse environment. During fine-tuning, we systematically integrate and evaluate a suite of enhancements--including hierarchical label smoothing, a weighted loss function, and a multi-head output layer from MycoAI--to specifically tackle the challenges of fungal taxonomy. Our experiments show that each of these components yields significant performance gains. On a challenging fungal classification benchmark with distinct taxonomic distribution shifts from the broad training set, our final model outperforms a range of existing methods across all taxonomic levels. Our work provides a powerful new tool for genomics-based biodiversity research and establishes an effective and scalable training paradigm for this challenging domain. Our code is publicly available at https://github.com/bioscan-ml/BarcodeMamba.
- Abstract(参考訳): DNAバーコードからの正確な分類は、地球規模の生物多様性監視の基盤であるが、真菌は、希少なラベル付けと長い尾を持つ分類群による極端な課題を呈している。
従来の教師付き学習法は、しばしばこの領域で失敗し、目に見えない種に一般化し、データの階層的な性質を捉えるのに苦労する。
これらの制約に対処するため、我々は、強力で効率的な状態空間モデルアーキテクチャ上に構築された真菌バーコード分類の基礎モデルBarcodeMamba+を紹介した。
本研究では,このデータ分散環境における従来の完全教師付き手法よりも,有意な有効性を示す。
微調整中、我々は、ヒエラルキーラベルの平滑化、重み付き損失関数、およびMycoAIのマルチヘッド出力層を含む一連の拡張を体系的に統合し、評価し、特に真菌分類の課題に取り組む。
実験の結果、これらのコンポーネントはいずれも大きなパフォーマンス向上をもたらすことがわかった。
幅広いトレーニングセットから異なる分類学的分布のシフトを持つ挑戦的な菌類分類ベンチマークでは、最終モデルはすべての分類学的レベルにおいて、様々な既存手法よりも優れています。
我々の研究は、ゲノムに基づく生物多様性研究のための強力な新しいツールを提供し、この挑戦的な領域に対して効果的でスケーラブルなトレーニングパラダイムを確立する。
私たちのコードはhttps://github.com/bioscan-ml/BarcodeMamba.comで公開されています。
関連論文リスト
- Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。
実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文 参考訳(メタデータ) (2025-09-29T12:55:50Z) - A Closer Look at Deep Learning Methods on Tabular Datasets [78.61845513154502]
広い範囲にまたがる300以上のデータセットの集合であるTALENTについて広範な研究を行った。
我々の評価では、アンサンブルは木に基づくアプローチとニューラルアプローチの両方に効果があることが示されている。
論文 参考訳(メタデータ) (2024-07-01T04:24:07Z) - BarcodeBERT: Transformers for Biodiversity Analysis [18.582770076266737]
本稿では,生物多様性分析に適したモデル群であるBarcodeBERTを紹介する。
BarcodeBERTは1.5Mの無脊椎動物DNAバーコードからなる参照ライブラリのデータにのみ訓練される。
論文 参考訳(メタデータ) (2023-11-04T13:25:49Z) - A Step Towards Worldwide Biodiversity Assessment: The BIOSCAN-1M Insect
Dataset [18.211840156134784]
本稿では,画像に基づく分類学的評価が可能なコンピュータビジョンモデルの訓練を目的とした,100万画像データセットを提案する。
このデータセットは魅力的な特徴も示しており、その研究はより広範な機械学習コミュニティにとって興味深いものとなるだろう。
論文 参考訳(メタデータ) (2023-07-19T20:54:08Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。