論文の概要: TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models
- arxiv url: http://arxiv.org/abs/2605.28868v1
- Date: Fri, 22 May 2026 08:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.937903
- Title: TaxDistill: Improving Metagenomic Taxonomic Annotation via Distilled Genomic Foundation Models
- Title(参考訳): TaxDistill:Distilled Genomic Foundation Modelによるメタゲノミクスのアノテーションの改善
- Authors: Rongye Ye, Lun Li, Zheng Luo, Yiran Zhan, Shuhui Song,
- Abstract要約: TaxDistillは、メタゲノミクス分類のための知識蒸留フレームワークである。
我々は,教師ネットワークとしてGenomeOceanを導入し,深い意味的特徴を抽出し,信頼度に基づいてソフトラベルを生成する。
さまざまな7つのCAMI2データセットに関する総合的な実験は、TaxDistillがほとんどのシナリオで既存のベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 3.756924024442221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metagenomic taxonomic annotation aims to identify the microbial origins of DNA fragments in environmental samples. Traditional methods that rely on sequence similarity are often constrained by the high microbial diversity and the incompleteness of reference databases, which has motivated the development of learning approaches such as Taxometer that perform post hoc correction to learn more informative metagenomic sequence representations. However, these methods typically rely on labels derived from similarity search tools during training, which inevitably introduces noise that can impair representation learning and degrade classification performance. To address this issue, we propose TaxDistill, a knowledge distillation framework for metagenomic classification. We introduce GenomeOcean, a 500M parameter genomic foundation model, as the teacher network to extract deep semantic features and generate soft labels based on confidence. By distilling this soft label information into a lightweight student network, TaxDistill effectively reduces the label noise introduced by initial retrieval tools. Comprehensive experiments on seven diverse CAMI2 datasets demonstrate that TaxDistill outperforms existing baselines in most scenarios. For instance, on the Gastrointestinal dataset, it improves the F1 score of MMseqs2 from 0.763 to 0.941, outperforming the Taxometer baseline. Overall, TaxDistill provides a reliable method for label correction in complex metagenomic analysis.
- Abstract(参考訳): メタゲノム分類学アノテーションは、環境試料中のDNA断片の微生物起源を特定することを目的としている。
配列類似性に依存する従来の手法は、しばしば、高い微生物多様性と参照データベースの不完全性によって制約される。
しかし、これらの手法は訓練中に類似検索ツールから派生したラベルに依存しており、必然的に表現学習の障害や分類性能の低下を引き起こす。
そこで本研究では,メタノミクス分類のための知識蒸留フレームワークであるTaxDistillを提案する。
我々は,500Mパラメータゲノム基盤モデルであるGenomeOceanを教師ネットワークとして導入し,深い意味的特徴を抽出し,信頼度に基づいてソフトラベルを生成する。
このソフトラベル情報を軽量な学生ネットワークに蒸留することにより、TaxDistillは、初期検索ツールによって導入されたラベルノイズを効果的に低減する。
さまざまな7つのCAMI2データセットに関する総合的な実験は、TaxDistillがほとんどのシナリオで既存のベースラインを上回っていることを示している。
例えば、消化管のデータセットでは、MMseqs2のF1スコアを0.763から0.941に改善し、タコメーターのベースラインを上回っている。
総合的に、TaxDistillは複雑なメダゲノミクス解析におけるラベル補正の信頼性の高い方法を提供している。
関連論文リスト
- Hierarchy-Guided Multimodal Representation Learning for Taxonomic Inference [17.708423679075075]
階層型マルチモーダル学習のためのエンドツーエンドの2つの変種を提案する。
CLiBD-HiRは階層情報正規化(HiR)を導入し、分類学レベルで埋め込み幾何学を形作る。
CLiBD-HiR-Fuseは、画像のみ、DNAのみ、または関節推論をサポートする軽量な融合予測器を訓練する。
論文 参考訳(メタデータ) (2026-03-26T15:47:03Z) - iCD: A Implicit Clustering Distillation Mathod for Structural Information Mining [1.3573542141741506]
暗黙的クラスタリング蒸留(iCD)は、論理から解釈可能な構造知識を抽出し、転送する単純で効果的な方法である。
ベンチマークデータセットの実験は、多様な教師/学生アーキテクチャにおけるiCDの有効性を示す。
論文 参考訳(メタデータ) (2025-09-16T01:16:13Z) - Rethinking Self-Distillation: Label Averaging and Enhanced Soft Label Refinement with Partial Labels [10.696635172502141]
マルチラウンド自己蒸留は,高い特徴相関を持つインスタンス間のラベル平均化を効果的に行う。
教師の最上位2つのソフトマックス出力の精巧な部分ラベルを用いた,新規で効率的なシングルラウンド自己蒸留法を提案する。
論文 参考訳(メタデータ) (2024-02-16T07:13:12Z) - GaussianMLR: Learning Implicit Class Significance via Calibrated
Multi-Label Ranking [0.0]
本稿では,ガウスMLRという新しい多ラベルランキング手法を提案する。
これは、正のラベルのランクを決定する暗黙のクラス重要性の値を学ぶことを目的としている。
提案手法は, 組み込まれた正のランク順の表現を正確に学習できることを示す。
論文 参考訳(メタデータ) (2023-03-07T14:09:08Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Deep Contrastive Graph Representation via Adaptive Homotopy Learning [76.22904270821778]
Homotopyモデルは、機械学習の分野におけるさまざまな研究によって活用される優れたツールである。
マクローリン双対性を用いる新しい適応ホモトピーフレームワーク(AH)を提案する。
AHはホモトピーに基づくアルゴリズムを強化するために広く利用することができる。
論文 参考訳(メタデータ) (2021-06-17T04:46:04Z) - Deep Semi-supervised Knowledge Distillation for Overlapping Cervical
Cell Instance Segmentation [54.49894381464853]
本稿では, ラベル付きデータとラベルなしデータの両方を, 知識蒸留による精度向上に活用することを提案する。
摂動に敏感なサンプルマイニングを用いたマスク誘導型平均教師フレームワークを提案する。
実験の結果,ラベル付きデータのみから学習した教師付き手法と比較して,提案手法は性能を著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-21T13:27:09Z) - Rectified Meta-Learning from Noisy Labels for Robust Image-based Plant
Disease Diagnosis [64.82680813427054]
植物病は食料安全保障と作物生産に対する主要な脅威の1つである。
1つの一般的なアプローチは、葉画像分類タスクとしてこの問題を変換し、強力な畳み込みニューラルネットワーク(CNN)によって対処できる。
本稿では,正規化メタ学習モジュールを共通CNNパラダイムに組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-17T09:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。