論文の概要: Set-Aggregated Genome Embeddings for Microbiome Abundance Prediction
- arxiv url: http://arxiv.org/abs/2605.12286v1
- Date: Tue, 12 May 2026 15:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.978153
- Title: Set-Aggregated Genome Embeddings for Microbiome Abundance Prediction
- Title(参考訳): マイクロバイオーム異常予測のためのセットアグリゲーションゲノム埋め込み
- Authors: Younhun Kim, Georg K. Gerber, Travis E. Gibson,
- Abstract要約: 我々は, 集合ゲノム埋め込みを用いて, コミュニティレベルの個体数プロファイルを予測する。
我々は、新しいゲノムの一般化の改善を示すために、このアプローチをベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Microbiome functions are encoded within the genes of the community-wide metagenome. A natural question is whether properties of a microbial community can be predicted just from knowing the raw DNA sequences of its members. In this work, we employ set-aggregated genome embeddings (SAGE) to predict community-level abundance profiles, exploiting the few-shot learning capabilities of genomic language models (GLMs). We benchmark this approach to show improved generalization on novel genomes compared to classical bioinformatics approaches. Model ablation shows that community-level latent representations directly result in improved performance. Lastly, we demonstrate the benefits of intermediate transformations between latent representations and demonstrate the differences between GLM embedding choices.
- Abstract(参考訳): 微生物機能は、コミュニティ全体のメタゲノムの遺伝子にコードされている。
自然の疑問は、そのメンバーの生DNA配列を知るだけで微生物群集の特性を予測できるかどうかである。
本研究では,ゲノミクスモデル(GLM)の少数ショット学習能力を活かして,コミュニティレベルの豊富プロファイルを予測するために,セットアグリゲーションゲノム埋め込み(SAGE)を用いる。
従来のバイオインフォマティクス手法と比較して,新規ゲノムの一般化が向上したことを示すため,本手法をベンチマークした。
モデルアブレーションは、コミュニティレベルの潜在表現が直接的にパフォーマンスを向上させることを示している。
最後に、潜在表現間の中間変換の利点を実証し、GLM埋め込み選択の違いを実証する。
関連論文リスト
- UncertainGen: Uncertainty-Aware Representations of DNA Sequences for Metagenomic Binning [0.4666493857924358]
メタゲノミクス・ビニング(Metagenomic binning)は、混合微生物サンプルのDNA断片をそれぞれのゲノムにまとめることを目的としている。
既存の方法は、k-merプロファイルや大きな言語モデルからの埋め込みのような決定論的表現に依存している。
本研究では,DNA断片を潜在空間の確率分布として表現した最初の確率的埋め込み手法UncertainGenを提案する。
論文 参考訳(メタデータ) (2025-09-30T11:36:09Z) - GRAPE: Heterogeneous Graph Representation Learning for Genetic Perturbation with Coding and Non-Coding Biotype [51.58774936662233]
遺伝子制御ネットワーク(GRN)の構築は、遺伝的摂動の影響を理解し予測するために不可欠である。
本研究では,事前学習した大規模言語モデルとDNAシークエンスモデルを用いて,遺伝子記述やDNAシークエンスデータから特徴を抽出する。
我々は、遺伝子摂動において初めて遺伝子バイオタイプ情報を導入し、細胞プロセスの制御において異なるバイオタイプを持つ遺伝子の異なる役割をシミュレートした。
論文 参考訳(メタデータ) (2025-05-06T03:35:24Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity [3.972930262155919]
本研究では、遺伝子ベクター化のための既存の大規模モデルを利用して、微生物ゲノム配列全体から生息地特異性を予測する枠組みを提案する。
我々は、異なる生息地から得られた高品質のマイクロバイオームゲノムの大規模なデータセット上で、我々のアプローチを訓練し、検証する。
論文 参考訳(メタデータ) (2024-05-09T09:34:51Z) - Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。
提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文 参考訳(メタデータ) (2022-04-26T12:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。