論文の概要: Multi-scale Sinusoidal Embeddings Enable Learning on High Resolution
Mass Spectrometry Data
- arxiv url: http://arxiv.org/abs/2207.02980v1
- Date: Wed, 6 Jul 2022 21:27:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:59:20.977352
- Title: Multi-scale Sinusoidal Embeddings Enable Learning on High Resolution
Mass Spectrometry Data
- Title(参考訳): 高分解能質量分析データによる学習が可能なマルチスケール正弦波埋め込み
- Authors: Gennady Voronov, Rose Lightheart, Joe Davison, Christoph A. Krettler,
David Healey, Thomas Butler
- Abstract要約: タンデム質量分析法(MS2)における質量データのマルチスケール正弦波埋め込みを用いて,MS2データの完全分解能から学習することの課題を満たす。
新規化合物のR2ドル平均80%は、薬理学者によって優先順位付けされた10の化学的性質で達成できることが示されている。
- 参考スコア(独自算出の注目度): 1.5671439230228206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small molecules in biological samples are studied to provide information
about disease states, environmental toxins, natural product drug discovery, and
many other applications. The primary window into the composition of small
molecule mixtures is tandem mass spectrometry (MS2), which produces data that
are of high sensitivity and part per million resolution. We adopt multi-scale
sinusoidal embeddings of the mass data in MS2 designed to meet the challenge of
learning from the full resolution of MS2 data. Using these embeddings, we
provide a new state of the art model for spectral library search, the standard
task for initial evaluation of MS2 data. We also introduce a new task, chemical
property prediction from MS2 data, that has natural applications in
high-throughput MS2 experiments and show that an average $R^2$ of 80\% for
novel compounds can be achieved across 10 chemical properties prioritized by
medicinal chemists. We use dimensionality reduction techniques and experiments
with different floating point resolutions to show the essential role
multi-scale sinusoidal embeddings play in learning from MS2 data.
- Abstract(参考訳): 生物試料中の小さな分子は、疾患の状態、環境毒素、天然物医薬品の発見、その他多くの応用に関する情報を提供するために研究されている。
小さな分子混合物の合成における主窓はタンデム質量分析 (Tandem mass spectrometry, MS2) であり、これは高感度で1億倍の分解能を持つデータを生成する。
我々は,MS2データの完全解像度から学習する際の課題を満たすために,MS2のマスデータのマルチスケール正弦波埋め込みを採用する。
これらの埋め込みを用いて,MS2データの初期評価のための標準課題であるスペクトルライブラリ検索のための新しい手法を提案する。
また,MS2データからの化学特性予測という新たな課題を導入し,高スループットMS2実験に自然に適用し,医薬化学者が優先する10種類の化学特性に対して,新規化合物の平均R^2$ of 80\%を達成可能であることを示した。
我々は,MS2データから学習において,多スケールの正弦波埋め込みが果たす重要な役割を,異なる浮動小数点分解法を用いて示す。
関連論文リスト
- MassSpecGym: A benchmark for the discovery and identification of molecules [21.471140898806315]
我々はMS/MSデータから分子の発見と同定のための最初の包括的なベンチマークであるMassSpecGymを提案する。
当社のベンチマークは,MS/MSスペクトルをラベル付けした高品質な画像集としては最大である。
これは、3つのMS/MSアノテーションの課題を定義している: textitde novo 分子構造の生成、分子検索、スペクトルシミュレーションである。
論文 参考訳(メタデータ) (2024-10-30T15:08:05Z) - S-MolSearch: 3D Semi-supervised Contrastive Learning for Bioactive Molecule Search [30.071862398889774]
半教師付きコントラスト学習において,分子3次元情報と親和性情報を活用する最初のフレームワークであるS-MolSearchを提案する。
ラベル付きデータとラベルなしデータの両方を効率的に処理し、ラベルなしデータのソフトラベルを生成しながら分子構造エンコーダを訓練する。
S-MolSearchは、広く使われているLIT-PCBAとDUD-Eで優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-27T14:51:11Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - SubOmiEmbed: Self-supervised Representation Learning of Multi-omics Data
for Cancer Type Classification [4.992154875028543]
マルチオミクスデータの統合と解析により腫瘍の広い視野が得られ,臨床診断の精度が向上する。
SubOmiEmbedは、非常に小さなネットワークを持つベースラインであるOmiEmbedに匹敵する結果を生成する。
この作業は、突然変異に基づくゲノムデータを統合するために改善される。
論文 参考訳(メタデータ) (2022-02-03T16:39:09Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Targeting SARS-CoV-2 with AI- and HPC-enabled Lead Generation: A First
Data Release [8.090016327163564]
このデータリリースは、4.2B分子と60TBの事前計算データの構造情報を含んでいる。
有望なアプローチのひとつは、機械学習(ML)と人工知能(AI)ツールをトレーニングして、多数の小さな分子をスクリーニングすることだ。
今後のリリースでは、より詳細な分子シミュレーションや計算モデル、その他の製品を含むように、データを拡大する予定である。
論文 参考訳(メタデータ) (2020-05-28T01:33:07Z) - Assessing Graph-based Deep Learning Models for Predicting Flash Point [52.931492216239995]
グラフベースのディープラーニング(GBDL)モデルは初めてフラッシュポイントを予測するために実装された。
MPNNの平均R2と平均絶対誤差(MAE)は、それぞれ2.3%低、2.0K高である。
論文 参考訳(メタデータ) (2020-02-26T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。