論文の概要: FlexMS is a flexible framework for benchmarking deep learning-based mass spectrum prediction tools in metabolomics
- arxiv url: http://arxiv.org/abs/2602.22822v1
- Date: Thu, 26 Feb 2026 10:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.637157
- Title: FlexMS is a flexible framework for benchmarking deep learning-based mass spectrum prediction tools in metabolomics
- Title(参考訳): FlexMSはメタボロミクスでディープラーニングベースの質量スペクトル予測ツールをベンチマークするための柔軟なフレームワーク
- Authors: Yunhua Zhong, Yixuan Tang, Yifan Li, Jie Yang, Pan Liu, Jun Xia,
- Abstract要約: 化学分子の同定と性質予測は、薬物発見と物質科学の発展において重要な役割を担っている。
深層学習モデルは分子構造スペクトルを予測できるが、全体的な評価は難しい。
我々の貢献は、質量スペクトル予測における多様なモデルアーキテクチャの構築と評価のためのベンチマークフレームワークFlexMSの作成である。
- 参考スコア(独自算出の注目度): 22.314786276794717
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The identification and property prediction of chemical molecules is of central importance in the advancement of drug discovery and material science, where the tandem mass spectrometry technology gives valuable fragmentation cues in the form of mass-to-charge ratio peaks. However, the lack of experimental spectra hinders the attachment of each molecular identification, and thus urges the establishment of prediction approaches for computational models. Deep learning models appear promising for predicting molecular structure spectra, but overall assessment remains challenging as a result of the heterogeneity in methods and the lack of well-defined benchmarks. To address this, our contribution is the creation of benchmark framework FlexMS for constructing and evaluating diverse model architectures in mass spectrum prediction. With its easy-to-use flexibility, FlexMS supports the dynamic construction of numerous distinct combinations of model architectures, while assessing their performance on preprocessed public datasets using different metrics. In this paper, we provide insights into factors influencing performance, including the structural diversity of datasets, hyperparameters like learning rate and data sparsity, pretraining effects, metadata ablation settings and cross-domain transfer learning analysis. This provides practical guidance in choosing suitable models. Moreover, retrieval benchmarks simulate practical identification scenarios and score potential matches based on predicted spectra.
- Abstract(参考訳): 化学分子の同定と性質予測は、タンデム質量分析技術が質量-電荷比ピークの形で貴重な断片化の手がかりを与える薬物発見と物質科学の発展において、中心的な重要性である。
しかし、実験スペクトルの欠如は各分子識別の付着を妨げるため、計算モデルに対する予測アプローチの確立を促す。
深層学習モデルは分子構造スペクトルの予測には有望なように見えるが、手法の不均一性や適切に定義されたベンチマークの欠如により、全体的な評価は依然として困難である。
これを解決するために、質量スペクトル予測における多様なモデルアーキテクチャの構築と評価のためのベンチマークフレームワークFlexMSを作成しました。
使い易い柔軟性により、FlexMSはさまざまな異なるモデルアーキテクチャの組み合わせの動的構築をサポートし、異なるメトリクスを使用して、前処理されたパブリックデータセットのパフォーマンスを評価します。
本稿では,データセットの構造的多様性,学習速度やデータ間隔などのハイパーパラメータ,事前学習効果,メタデータのアブレーション設定,ドメイン間移動学習分析など,パフォーマンスに影響を与える要因について考察する。
これは適切なモデルを選択するための実践的なガイダンスを提供する。
さらに、検索ベンチマークは、予測されたスペクトルに基づいて、実際の識別シナリオをシミュレートし、潜在的な一致をスコアする。
関連論文リスト
- Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - Spectra-to-Structure and Structure-to-Spectra Inference Across the Periodic Table [49.65586812435899]
XAStructは、結晶構造からXASスペクトルを予測し、XAS入力から局所構造記述子を推測できる学習ベースのシステムである。
XAStructは、周期表全体にわたって70以上の要素にまたがる大規模なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2025-06-13T15:58:05Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Improved prediction of ligand-protein binding affinities by meta-modeling [1.3859669037499769]
我々は,力場に基づく実証ドッキングとシーケンスに基づくディープラーニングモデルを統合するフレームワークを開発した。
メタモデルの多くがベースモデルに対する親和性予測を大幅に改善していることを示す。
我々の最高のメタモデルは、3D構造のみに基づく最先端のディープラーニングツールに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2023-10-05T23:46:45Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Unsupervised Machine Learning for Exploratory Data Analysis of Exoplanet
Transmission Spectra [68.8204255655161]
我々は、通過する太陽系外惑星のスペクトルデータを解析するための教師なし手法に焦点をあてる。
スペクトルデータには、適切な低次元表現を要求する高い相関関係があることが示される。
主成分に基づく興味深い構造、すなわち、異なる化学状態に対応する明確に定義された分岐を明らかにする。
論文 参考訳(メタデータ) (2022-01-07T22:26:33Z) - BenchML: an extensible pipelining framework for benchmarking
representations of materials and molecules at scale [0.0]
物質や分子のデータセットに対して化学系の表現をベンチマークする機械学習フレームワークを提案する。
モデル複雑性を単純な回帰スキームに制限することで、生の記述子の性能を評価するのが原則である。
結果として得られるモデルは、将来のメソッド開発を知らせるベースラインとして意図されている。
論文 参考訳(メタデータ) (2021-12-04T09:07:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。