論文の概要: Abundance-Aware Set Transformer for Microbiome Sample Embedding
- arxiv url: http://arxiv.org/abs/2508.11075v1
- Date: Thu, 14 Aug 2025 21:15:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.676661
- Title: Abundance-Aware Set Transformer for Microbiome Sample Embedding
- Title(参考訳): マイクロバイオーム試料埋込用アウンダンスアウェアセット変圧器
- Authors: Hyunwoo Yoo, Gail Rosen,
- Abstract要約: 本研究では,固定サイズサンプルレベルの埋め込みを構築するために,Set Transformerのアブリダンス対応版を提案する。
本手法は, 実世界のマイクロバイオーム分類タスクにおいて, 平均プールおよび非重み付きセットトランスフォーマーより優れる。
- 参考スコア(独自算出の注目度): 0.44198435146063353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Microbiome sample representation to input into LLMs is essential for downstream tasks such as phenotype prediction and environmental classification. While prior studies have explored embedding-based representations of each microbiome sample, most rely on simple averaging over sequence embeddings, often overlooking the biological importance of taxa abundance. In this work, we propose an abundance-aware variant of the Set Transformer to construct fixed-size sample-level embeddings by weighting sequence embeddings according to their relative abundance. Without modifying the model architecture, we replicate embedding vectors proportional to their abundance and apply self-attention-based aggregation. Our method outperforms average pooling and unweighted Set Transformers on real-world microbiome classification tasks, achieving perfect performance in some cases. These results demonstrate the utility of abundance-aware aggregation for robust and biologically informed microbiome representation. To the best of our knowledge, this is one of the first approaches to integrate sequence-level abundance into Transformer-based sample embeddings.
- Abstract(参考訳): LLMに入力する微生物サンプル表現は、表現型予測や環境分類といった下流タスクに不可欠である。
従来の研究では、各微生物サンプルの埋め込みに基づく表現を研究してきたが、ほとんどの場合、配列の埋め込みよりも単純な平均化に依存しており、しばしばタクサの生物的な重要性を見落としている。
そこで本研究では,Set Transformerのアブリダンス対応版を提案し,その相対的なアブリダンスに応じて配列埋め込みを重み付けすることで,一定の大きさのサンプルレベルの埋め込みを構築する。
モデルアーキテクチャを変更することなく、埋め込みベクトルをその存在量に比例して複製し、自己アテンションに基づくアグリゲーションを適用する。
本手法は,実世界のマイクロバイオーム分類タスクにおいて,平均プールと非重み付きセットトランスフォーマーの性能を向上し,場合によっては完璧な性能を達成している。
以上の結果から, バイオバイオーム表現におけるアブリダンス・アウェア・アグリゲーションの有用性が示唆された。
我々の知る限りでは、これはTransformerベースのサンプル埋め込みにシーケンスレベルの豊富さを統合するための最初のアプローチの1つである。
関連論文リスト
- Bidirectional Mamba for Single-Cell Data: Efficient Context Learning with Biological Fidelity [0.39945675027960637]
我々は、状態空間モデリングに基づいて構築された単一セル転写学のスケーラブルで効率的な基礎モデルであるGeneMambaを紹介した。
GeneMambaは、双方向の遺伝子コンテキストを線形時間複雑性でキャプチャし、トランスフォーマーベースラインよりもかなりの計算的ゲインを提供する。
我々は、マルチバッチ統合、細胞型アノテーション、遺伝子-遺伝子相関など様々なタスクにまたがってGeneMambaを評価し、高い性能、解釈可能性、堅牢性を示す。
論文 参考訳(メタデータ) (2025-04-22T20:34:47Z) - Hierarchical Sparse Bayesian Multitask Model with Scalable Inference for Microbiome Analysis [1.361248247831476]
本稿では,一般的なマルチタスク二元分類学習問題に適用可能な階層型ベイズ的マルチタスク学習モデルを提案する。
後方分布を近似するために,変分推定に基づく計算効率の良い推論アルゴリズムを導出する。
各種合成データセットに対する新しいアプローチの可能性を示し, マイクロバイオームプロファイルに基づくヒトの健康状態の予測を行う。
論文 参考訳(メタデータ) (2025-02-04T18:23:22Z) - Constructing Cell-type Taxonomy by Optimal Transport with Relaxed Marginal Constraints [14.831346286039151]
細胞のクラスタ分析における課題の1つは、異なる起源や条件のデータセットから抽出されたクラスタのマッチングである。
提案手法は,全サンプルにまたがるセルクラスタの分類を構築し,これらのクラスタのアノテート性を向上し,下流分析のための特徴を効果的に抽出することを目的としている。
論文 参考訳(メタデータ) (2025-01-29T21:29:25Z) - Vision Transformers for Weakly-Supervised Microorganism Enumeration [0.0]
本研究は、微生物列挙における弱教師付き計数のための視覚変換器(ViT)の比較分析を行う。
4つの微生物学的データセットを用いた特徴抽出のためのアーキテクチャバックボーンとして,さまざまなバージョンのViTをトレーニングした。
その結果、ResNetsは全体的なパフォーマンスが向上する一方で、ViTsのパフォーマンスはすべてのデータセットにまたがる有能な結果を示している。
論文 参考訳(メタデータ) (2024-12-03T08:27:20Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z) - Energy-Based Test Sample Adaptation for Domain Generalization [81.04943285281072]
そこで本研究では,ドメインの試験時間におけるエネルギーに基づくサンプル適応を提案する。
対象試料をソース分布に適応させるため,エネルギー最小化により反復的に試料を更新する。
画像とマイクロブログスレッドの分類のための6つのベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-22T08:55:09Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。