論文の概要: Small molecule retrieval from tandem mass spectrometry: what are we optimizing for?
- arxiv url: http://arxiv.org/abs/2602.16507v1
- Date: Wed, 18 Feb 2026 14:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.623259
- Title: Small molecule retrieval from tandem mass spectrometry: what are we optimizing for?
- Title(参考訳): タンデム質量分析法(タンデム質量分析法)による微小分子の探索-何が最適か?
- Authors: Gaetan De Waele, Marek Wydmuch, Krzysztof Dembczyński, Wojciech Kotłowski, Willem Waegeman,
- Abstract要約: 一般的な戦略は、入力された質量スペクトルから分子指紋を予測し、化学化合物データベースで一致を検索する。
様々な損失関数がこれらの予測モデルの訓練に使われているが、モデル性能への影響はいまだによく分かっていない。
本研究では,これらの目的に対するベイズ最適決定が分散する必要がある場合に特徴付ける,新たな後悔境界を導出した,よく使われる損失関数について検討する。
- 参考スコア(独自算出の注目度): 5.01730993576195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the central challenges in the computational analysis of liquid chromatography-tandem mass spectrometry (LC-MS/MS) data is to identify the compounds underlying the output spectra. In recent years, this problem is increasingly tackled using deep learning methods. A common strategy involves predicting a molecular fingerprint vector from an input mass spectrum, which is then used to search for matches in a chemical compound database. While various loss functions are employed in training these predictive models, their impact on model performance remains poorly understood. In this study, we investigate commonly used loss functions, deriving novel regret bounds that characterize when Bayes-optimal decisions for these objectives must diverge. Our results reveal a fundamental trade-off between the two objectives of (1) fingerprint similarity and (2) molecular retrieval. Optimizing for more accurate fingerprint predictions typically worsens retrieval results, and vice versa. Our theoretical analysis shows this trade-off depends on the similarity structure of candidate sets, providing guidance for loss function and fingerprint selection.
- Abstract(参考訳): 液体クロマトグラフィー・タンデム質量分析法(LC-MS/MS)データの計算分析における中心的な課題の1つは、出力スペクトルの基礎となる化合物を特定することである。
近年,ディープラーニング手法によってこの問題に取り組みつつある。
一般的な戦略は、入力された質量スペクトルから分子指紋ベクトルを予測し、化学化合物データベース内の一致を探索することである。
様々な損失関数がこれらの予測モデルの訓練に使われているが、モデル性能への影響はいまだによく分かっていない。
本研究では,これらの目的に対するベイズ最適決定が分散する必要がある場合に特徴付ける,新たな後悔境界を導出した,よく使われる損失関数について検討する。
以上の結果から,(1)指紋類似性と(2)分子検索の2つの目的の根本的なトレードオフが明らかとなった。
より正確な指紋の予測を最適化すると、検索結果が悪化し、その逆も悪化する。
我々の理論的分析は、このトレードオフが候補集合の類似性構造に依存していることを示し、損失関数と指紋選択のガイダンスを提供する。
関連論文リスト
- Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - To Bin or not to Bin: Alternative Representations of Mass Spectra [0.0]
我々は、下流機械学習タスク、すなわちセットベースおよびグラフベース表現の前に、マススペクトルの双対化の2つの選択肢について検討する。
提案した2つの表現を比較して、回帰タスクにおいて、セット変換器とグラフニューラルネットワークをトレーニングし、それぞれが、バイナリデータに基づいてトレーニングされた多層パーセプトロンよりもかなり優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-02-15T16:52:36Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Efficiently predicting high resolution mass spectra with graph neural
networks [28.387227518307604]
質量スペクトルから小さな分子を同定することは、計算メタボロミクスにおける主要な開問題である。
未知のスペクトルは、化学構造の大規模なデータベースから予測されるスペクトルと一致している。
我々は、入力分子グラフから分子式上の確率分布への写像としてスペクトル予測をキャストすることで、このトレードオフを解決する。
論文 参考訳(メタデータ) (2023-01-26T21:10:26Z) - Graph Neural Networks with Trainable Adjacency Matrices for Fault
Diagnosis on Multivariate Sensor Data [69.25738064847175]
各センサの信号の挙動を別々に検討し,相互の相関関係と隠れ関係を考慮する必要がある。
グラフノードは、異なるセンサーからのデータとして表現することができ、エッジは、これらのデータの影響を互いに表示することができる。
グラフニューラルネットワークのトレーニング中にグラフを構築する方法が提案されている。これにより、センサー間の依存関係が事前に分かっていないデータ上でモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-20T11:03:21Z) - RetroGraph: Retrosynthetic Planning with Graph Search [101.92603715499112]
再合成計画(Retrosynthetic Planning)は、標的分子を合成する反応経路を見つけることを目的としている。
本稿では,任意の中間分子の冗長な探索を排除したグラフベースの探索ポリシーを提案する。
提案手法は,グラフ内のターゲットの集合を探索し,木構造に基づく探索手法におけるターゲット間重複を除去する。
論文 参考訳(メタデータ) (2022-06-23T05:01:29Z) - Ensemble Spectral Prediction (ESP) Model for Metabolite Annotation [10.640447979978436]
メタボロミクスの鍵となる課題は、化学的なアイデンティティを持つ生物学的サンプルから測定されたスペクトルを注釈付けすることである。
メタボライトアノテーションのための新しい機械学習モデルEnsemble Spectral Prediction (ESP)を提案する。
論文 参考訳(メタデータ) (2022-03-25T17:05:41Z) - MassFormer: Tandem Mass Spectrum Prediction for Small Molecules using
Graph Transformers [3.2951121243459522]
タンデム質量スペクトルは、分子に関する重要な構造情報を提供する断片化パターンをキャプチャする。
70年以上にわたり、スペクトル予測はこの分野において重要な課題であり続けている。
我々はタンデム質量スペクトルを正確に予測する新しいモデルMassFormerを提案する。
論文 参考訳(メタデータ) (2021-11-08T20:55:15Z) - An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation [53.425900196763756]
本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。
半教師付きグラフ学習問題を定式化するために、特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。
本手法は膵臓で1%,脾臓で2%向上し,最先端のCRF改善法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-06T18:55:07Z) - Using Graph Neural Networks for Mass Spectrometry Prediction [11.797657070243716]
グラフニューラルネットワーク(GNN)を用いて測定スペクトルを予測する。
私たちのモデルへの入力は分子グラフです。
分子指紋を入力として利用するニューラルネットワークモデルNEIMSとの比較を行った。
論文 参考訳(メタデータ) (2020-10-09T16:06:57Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。