論文の概要: MetagenBERT: a Transformer-based Architecture using Foundational genomic Large Language Models for novel Metagenome Representation
- arxiv url: http://arxiv.org/abs/2601.03295v1
- Date: Mon, 05 Jan 2026 19:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:22.970418
- Title: MetagenBERT: a Transformer-based Architecture using Foundational genomic Large Language Models for novel Metagenome Representation
- Title(参考訳): MetagenBERT:新しいメタゲノム表現のための基礎ゲノム大言語モデルを用いたトランスフォーマーベースアーキテクチャ
- Authors: Gaspar Roy, Eugeni Belda, Baptiste Hennecart, Yann Chevaleyre, Edi Prifti, Jean-Daniel Zucker,
- Abstract要約: 分類学的および機能的アノテーションなしで生のDNA配列から直接エンド・ツー・エンドのメタゲノムを組み込むフレームワークであるMetagenBERTを提案する。
5つのベンチマーク腸内微生物叢(肝硬変, T2D, 肥満, IBD, CRC)に対する本手法の評価を行った。
また,MetagenBERT Glob Mcardisは多種多様なMetaCardisコホートを訓練し,他のデータセットに転送し,未知の表現型を含む予測信号を保持するクロスコホートである。
- 参考スコア(独自算出の注目度): 4.470992949474734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metagenomic disease prediction commonly relies on species abundance tables derived from large, incomplete reference catalogs, constraining resolution and discarding valuable information contained in DNA reads. To overcome these limitations, we introduce MetagenBERT, a Transformer based framework that produces end to end metagenome embeddings directly from raw DNA sequences, without taxonomic or functional annotations. Reads are embedded using foundational genomic language models (DNABERT2 and the microbiome specialized DNABERTMS), then aggregated through a scalable clustering strategy based on FAISS accelerated KMeans. Each metagenome is represented as a cluster abundance vector summarizing the distribution of its embedded reads. We evaluate this approach on five benchmark gut microbiome datasets (Cirrhosis, T2D, Obesity, IBD, CRC). MetagenBERT achieves competitive or superior AUC performance relative to species abundance baselines across most tasks. Concatenating both representations further improves prediction, demonstrating complementarity between taxonomic and embedding derived signals. Clustering remains robust when applied to as little as 10% of reads, highlighting substantial redundancy in metagenomes and enabling major computational gains. We additionally introduce MetagenBERT Glob Mcardis, a cross cohort variant trained on the large, phenotypically diverse MetaCardis cohort and transferred to other datasets, retaining predictive signal including for unseen phenotypes, indicating the feasibility of a foundation model for metagenome representation. Robustness analyses (PERMANOVA, PERMDISP, entropy) show consistent separation of different states across subsamples. Overall, MetagenBERT provides a scalable, annotation free representation of metagenomes pointing toward future phenotype aware generalization across heterogeneous cohorts and sequencing technologies.
- Abstract(参考訳): メタゲノミクス病の予測は、大きくて不完全な参照カタログから派生した種数表に依存し、解像度を制限し、DNA読み取りに含まれる貴重な情報を捨てることが一般的である。
これらの制限を克服するために,トランスフォーマーベースのフレームワークであるMetagenBERTを導入する。
読み込みは基礎的なゲノム言語モデル(DNABERT2とマイクロバイオーム専門のDNABERTMS)を使用して埋め込み、FAISSアクセラレーションされたKMeansに基づいたスケーラブルなクラスタリング戦略を通じて集約される。
各メタジェノムは、その埋め込み読み出しの分布を要約したクラスタ存在量ベクトルとして表現される。
本手法は,5つのベンチマーク腸内微生物叢(肝硬変,T2D,肥満,IBD,CRC)で評価した。
MetagenBERTは、ほとんどのタスクにおける種数ベースラインに対して、競争力または優れたAUC性能を達成する。
両表現の連結は予測をさらに改善し、分類学的信号と組込み信号の相補性を示す。
クラスタリングは、読み取りの10%以下に適用しても堅牢であり、メタジェノムのかなりの冗長性を強調し、大きな計算ゲインを可能にする。
また,MetagenBERT Glob Mcardisは多種多様なMetaCardisコホートに基づいて訓練され,他のデータセットに転送されるクロスコホート変種である。
ロバストネス解析 (PERMANOVA, PERMDISP, エントロピー) はサブサンプル間で異なる状態の連続的な分離を示す。
全体として、MetagenBERTは、異種コホートやシークエンシング技術にまたがる将来の表現型認識一般化を指す、スケーラブルでアノテーションのないメタジェノムの表現を提供する。
関連論文リスト
- Interpretable Perturbation Modeling Through Biomedical Knowledge Graphs [2.9275990558029075]
マルチモーダル・埋め込みは バイオメディカル・ナレッジ・グラフに統合されます
薬物細胞対のランドマーク遺伝子のデルタ表現プロファイルを学習するために,グラフアテンションネットワークを訓練する。
我々の枠組みは、メカニスティックな薬物モデリングへの道筋を提供する。
論文 参考訳(メタデータ) (2025-12-24T04:42:25Z) - An Interpretable Ensemble Framework for Multi-Omics Dementia Biomarker Discovery Under HDLSS Conditions [0.0]
本稿では、グラフ注意ネットワーク(GAT)、マルチOmics Variational AutoEncoder(MOVE)、Elastic-net sparse regression、Storey's False Discovery Rate(FDR)を組み合わせた新しいアンサンブル手法を提案する。
シミュレーションされたマルチオミクスデータとアルツハイマー病神経画像イニシアチブ(ADNI)データセットを用いて評価を行った。
本手法は, 優れた予測精度, 特徴選択精度, 生物学的妥当性を示す。
論文 参考訳(メタデータ) (2025-09-04T15:20:13Z) - ReDiSC: A Reparameterized Masked Diffusion Model for Scalable Node Classification with Structured Predictions [64.17845687013434]
本稿では,構造化ノード分類のための構造拡散モデルであるReDiSCを提案する。
本稿では,ReDiSCが最先端のGNN,ラベル伝搬,拡散ベースラインと比較して,優れた,あるいは高い競争力を発揮することを示す。
特にReDiSCは、従来の構造化拡散法が計算制約によって失敗する大規模データセットに効果的にスケールする。
論文 参考訳(メタデータ) (2025-07-19T04:46:53Z) - Interpretable Graph Kolmogorov-Arnold Networks for Multi-Cancer Classification and Biomarker Identification using Multi-Omics Data [36.92842246372894]
Multi-Omics Graph Kolmogorov-Arnold Network (MOGKAN)は、メッセンジャーRNA、マイクロRNA配列、DNAメチル化サンプルを利用するディープラーニングフレームワークである。
グラフに基づく深層学習とマルチオミクスデータを統合することにより,提案手法は頑健な予測性能と解釈可能性を示す。
論文 参考訳(メタデータ) (2025-03-29T02:14:05Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multimodal Prototyping for cancer survival prediction [45.61869793509184]
ギガピクセルヒストロジー全体スライディング画像(WSI)と転写学的プロファイルを組み合わせたマルチモーダルサバイバル法は,患者の予後と成層化に特に有望である。
現在のアプローチでは、WSIを小さなパッチ(>10,000パッチ)にトークン化し、トランスクリプトミクスを遺伝子グループに分割し、結果を予測するためにTransformerを使用して統合する。
このプロセスは多くのトークンを生成し、これは注意を計算するための高いメモリ要求をもたらし、ポストホック解釈可能性分析を複雑にする。
我々のフレームワークは、新しい解釈可能性解析を解き放ちながら、はるかに少ない計算で最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-06-28T20:37:01Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。