論文の概要: UncertainGen: Uncertainty-Aware Representations of DNA Sequences for Metagenomic Binning
- arxiv url: http://arxiv.org/abs/2509.26116v1
- Date: Tue, 30 Sep 2025 11:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.5236
- Title: UncertainGen: Uncertainty-Aware Representations of DNA Sequences for Metagenomic Binning
- Title(参考訳): UncertainGen:メタゲノム結合のためのDNA配列の不確かさを意識した表現
- Authors: Abdulkadir Celikkanat, Andres R. Masegosa, Mads Albertsen, Thomas D. Nielsen,
- Abstract要約: メタゲノミクス・ビニング(Metagenomic binning)は、混合微生物サンプルのDNA断片をそれぞれのゲノムにまとめることを目的としている。
既存の方法は、k-merプロファイルや大きな言語モデルからの埋め込みのような決定論的表現に依存している。
本研究では,DNA断片を潜在空間の確率分布として表現した最初の確率的埋め込み手法UncertainGenを提案する。
- 参考スコア(独自算出の注目度): 0.4666493857924358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metagenomic binning aims to cluster DNA fragments from mixed microbial samples into their respective genomes, a critical step for downstream analyses of microbial communities. Existing methods rely on deterministic representations, such as k-mer profiles or embeddings from large language models, which fail to capture the uncertainty inherent in DNA sequences arising from inter-species DNA sharing and from fragments with highly similar representations. We present the first probabilistic embedding approach, UncertainGen, for metagenomic binning, representing each DNA fragment as a probability distribution in latent space. Our approach naturally models sequence-level uncertainty, and we provide theoretical guarantees on embedding distinguishability. This probabilistic embedding framework expands the feasible latent space by introducing a data-adaptive metric, which in turn enables more flexible separation of bins/clusters. Experiments on real metagenomic datasets demonstrate the improvements over deterministic k-mer and LLM-based embeddings for the binning task by offering a scalable and lightweight solution for large-scale metagenomic analysis.
- Abstract(参考訳): メタゲノミクス・ビニング(Metagenomic binning)は、混合微生物サンプルのDNA断片をそれぞれのゲノムにまとめることを目的としており、微生物群集を下流で解析するための重要なステップである。
既存の方法では、k-merプロファイルや大きな言語モデルからの埋め込みのような決定論的表現に依存しており、種間DNAの共有や非常に類似した表現を持つ断片から生じるDNA配列に固有の不確実性を捉えることができない。
本研究は,DNA断片を潜在空間の確率分布として表現した最初の確率的埋め込み手法であるUncertainGenについて述べる。
提案手法は, シーケンスレベルの不確実性を自然にモデル化し, 組込み識別可能性に関する理論的保証を提供する。
この確率的埋め込みフレームワークは、データ適応計量を導入して実現可能な潜在空間を拡張し、それによってビン/クラスタのより柔軟な分離を可能にします。
実際のメダゲノミクスデータセットの実験では、大規模メダゲノミクス分析のためのスケーラブルで軽量なソリューションを提供することにより、決定論的k-merとLLMベースの埋め込みの改善が実証されている。
関連論文リスト
- Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - Model Decides How to Tokenize: Adaptive DNA Sequence Tokenization with MxDNA [44.630039477717624]
MxDNAは、モデルが段階的に有効なDNAトークン化戦略を自律的に学習する新しいフレームワークである。
我々は、MxDNAが従来の方法とは異なるユニークなトークン化戦略を学習し、自己教師付き事前学習中にトークンレベルでゲノム機能をキャプチャすることを示す。
論文 参考訳(メタデータ) (2024-12-18T10:55:43Z) - Revisiting K-mer Profile for Effective and Scalable Genome Representation Learning [0.0]
我々は、k-merをベースとしたゲノムの表現の理論解析を行う。
本稿では,ゲノム読取レベルでメダゲノミクスビニングを行うための軽量でスケーラブルなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T14:36:51Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - StyleGenes: Discrete and Efficient Latent Distributions for GANs [149.0290830305808]
GAN(Generative Adversarial Networks)のための離散潜在分布を提案する。
連続的な先行点から潜在ベクトルを描く代わりに、学習可能な潜在点の有限集合からサンプリングする。
私たちは生物の情報のエンコーディングからインスピレーションを得ます。
論文 参考訳(メタデータ) (2023-04-30T23:28:46Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。