論文の概要: LSM-MS2: A Foundation Model Bridging Spectral Identification and Biological Interpretation
- arxiv url: http://arxiv.org/abs/2510.26715v1
- Date: Thu, 30 Oct 2025 17:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.933088
- Title: LSM-MS2: A Foundation Model Bridging Spectral Identification and Biological Interpretation
- Title(参考訳): LSM-MS2: スペクトル同定と生物学的解釈の基礎モデル
- Authors: Gabriel Asher, Devesh Shah, Amy A. Caudy, Luke Ferro, Lea Amar, Ana S. H. Costa, Thomas Patton, Niall O'Connor, Jennifer M. Campbell, Jack Geremia,
- Abstract要約: 本稿では,数百万のスペクトルをベースとした大規模深層学習基盤モデル LSM-MS2 について述べる。
LSM-MS2は、スペクトル同定における最先端性能を達成し、既存の方法では、難解な異性体化合物を同定する精度を30%向上させる。
- 参考スコア(独自算出の注目度): 0.179762320774136
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A vast majority of mass spectrometry data remains uncharacterized, leaving much of its biological and chemical information untapped. Recent advances in machine learning have begun to address this gap, particularly for tasks such as spectral identification in tandem mass spectrometry data. Here, we present the latest generation of LSM-MS2, a large-scale deep learning foundation model trained on millions of spectra to learn a semantic chemical space. LSM-MS2 achieves state-of-the-art performance in spectral identification, improving on existing methods by 30% in accuracy of identifying challenging isomeric compounds, yielding 42% more correct identifications in complex biological samples, and maintaining robustness under low-concentration conditions. Furthermore, LSM-MS2 produces rich spectral embeddings that enable direct biological interpretation from minimal downstream data, successfully differentiating disease states and predicting clinical outcomes across diverse translational applications.
- Abstract(参考訳): 質量分析データの大多数は未同定のままであり、その生物学的および化学的情報は未発見のまま残されている。
機械学習の最近の進歩は、特にタンデム質量分析データにおけるスペクトル識別などのタスクにおいて、このギャップに対処し始めている。
本稿では,数百万のスペクトルをベースとした大規模深層学習基盤モデル LSM-MS2 について述べる。
LSM-MS2は、スペクトル同定における最先端性能を達成し、難解な異性体化合物の同定精度を30%向上させ、複雑な生物学的試料の正確な同定を42%向上させ、低濃度条件下での堅牢性を維持する。
さらに、LSM-MS2は、最小ダウンストリームデータからの直接的な生物学的解釈を可能にし、疾患状態を識別し、様々な翻訳アプリケーションで臨床結果を予測する、豊富なスペクトル埋め込みを生成する。
関連論文リスト
- A Self-supervised Learning Method for Raman Spectroscopy based on Masked Autoencoders [3.9517125314802306]
SMAE と呼ばれる Masked AutoEncoder に基づくラマン分光の自己教師型学習パラダイムを提案する。
SMAEは、事前トレーニング中にスペクトルアノテーションを必要としない。ランダムなマスキングを行い、スペクトル情報を再構成することにより、本質的なスペクトル特徴を学習する。
論文 参考訳(メタデータ) (2025-04-21T10:44:06Z) - MADGEN: Mass-Spec attends to De Novo Molecular generation [16.89017809745962]
質量分析データを用いたデノボ分子構造生成のための足場に基づく手法を提案する。
MADGENは、足場検索とスペクトル条件分子生成の2段階で動作する。
我々は3つのデータセット(NIST23、CANOPUS、MassSpecGym)上でMADGENを評価する。
論文 参考訳(メタデータ) (2025-01-03T18:54:26Z) - Biology-Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [55.74944165932666]
本稿では,生物配列の大規模学習データセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンス関連タスクをブリッジし、その汎用性と推論を強化する。
また,マルチオミクスタスクにおける現状のLLMの,専門訓練なしでの大幅な制限を強調した。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - CLCLSA: Cross-omics Linked embedding with Contrastive Learning and Self
Attention for multi-omics integration with incomplete multi-omics data [47.2764293508916]
不均一・高次元マルチオミクスデータの統合は、遺伝データの理解においてますます重要になっている。
マルチオミクスデータ統合を行う際に直面する障害のひとつは、機器の感度とコストによる未ペアリングマルチオミクスデータの存在である。
クロスオミクスを用いたマルチオミクス統合のための深層学習手法を提案する。
論文 参考訳(メタデータ) (2023-04-12T00:22:18Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。