論文の概要: CoRe-Gen: Robust Spectrum-to-Structure Generation under Imperfect Fingerprint Conditions
- arxiv url: http://arxiv.org/abs/2605.12980v1
- Date: Wed, 13 May 2026 04:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.80741
- Title: CoRe-Gen: Robust Spectrum-to-Structure Generation under Imperfect Fingerprint Conditions
- Title(参考訳): CoRe-Gen:不完全な指紋条件下でのロバストスペクトル-構造生成
- Authors: Tianbo Liu, Chixiang Lu, Jing Hao, Hengyu Zhang, Lifei Wang, Haibo Jiang, Xiaojuan Qi,
- Abstract要約: タンデム質量スペクトル(MS/MS)からの分子構造解明は、特にデータベースのカバレッジを超えたデノボ生成が困難である。
一般的なアプローチでは、タスクをスペクトルからフィンガープリントの予測に分解し、続いて指紋から構造へのデコードを行い、大規模な分子コーパスの使用を可能にしている。
CoRe-Genは、エンコーダの合成スペクトル事前訓練による中間条件の改善、デコーダ訓練中の周波数認識指紋の破損による展開時間ノイズのマッチング、構成SELFIESを用いた構造認識自己回帰復号、補助構造監視、軽量化学制約による残差の軽減を行う。
- 参考スコア(独自算出の注目度): 27.030027969656203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular structure elucidation from tandem mass spectra (MS/MS) remains challenging, particularly for de novo generation beyond database coverage. A common approach decomposes the task into spectrum-to-fingerprint prediction followed by fingerprint-to-structure decoding, enabling the use of large-scale molecular corpora. However, at deployment, the decoder relies on predicted rather than oracle fingerprints, introducing structured errors that propagate into generation. This results in a fundamental condition mismatch, where models trained on clean inputs must operate under noisy, biased predictions, especially for long-tail substructures. We present CoRe-Gen that explicitly addresses this gap. CoRe-Gen improves the intermediate condition via synthetic-spectrum pretraining of the encoder, matches deployment-time noise through frequency-aware fingerprint corruption during decoder training, and mitigates residual errors using structure-aware autoregressive decoding with compositional SELFIES representations, auxiliary structural supervision, and lightweight chemical constraints. Experiments on standard benchmarks show that CoRe-Gen establishes a new state of the art on NPLIB1, achieving 19.54\% Top-1 and 29.92\% Top-10 exact-match accuracy, while remaining competitive on the more challenging MassSpecGym benchmark. Importantly, CoRe-Gen preserves the efficiency advantages of autoregressive decoding, providing a practical and scalable solution for robust spectrum-to-structure generation under realistic conditions.
- Abstract(参考訳): タンデム質量スペクトル(MS/MS)からの分子構造解明は、特にデータベースのカバレッジを超えたデノボ生成が困難である。
一般的なアプローチでは、タスクをスペクトルからフィンガープリントの予測に分解し、続いて指紋から構造へのデコードを行い、大規模な分子コーパスの使用を可能にしている。
しかし、デプロイ時には、デコーダはオラクルの指紋よりも予測に頼っており、世代に伝播する構造化エラーを導入している。
この結果、クリーンな入力で訓練されたモデルは、特にロングテールのサブストラクチャにおいて、ノイズの多いバイアス付き予測の下で動作しなければならない、基本的な条件ミスマッチが生じる。
私たちはこのギャップに明示的に対処するCoRe-Genを紹介します。
CoRe-Genは、エンコーダの合成スペクトル事前訓練による中間条件の改善、デコーダ訓練中の周波数認識指紋の破損による展開時間ノイズのマッチング、構成SELFIES表現を用いた構造認識自己回帰復号法、補助構造監督法、軽量化学制約による残差の軽減を行う。
標準ベンチマークの実験では、CoRe-GenはNPLIB1上で新しい最先端技術を確立し、Top-1と29.92\%のTop-10の精度を達成し、より困難なMassSpecGymベンチマークでは競争力を維持している。
重要なことは、CoRe-Genは自己回帰復号の効率性を保ち、現実的な条件下で堅牢なスペクトル-構造生成のための実用的でスケーラブルなソリューションを提供する。
関連論文リスト
- Monitoring Neural Training with Topology: A Footprint-Predictable Collapse Index [51.56484100374058]
我々は,MHM(Modular Morse Homology maintenance)とCI(Composite Collapse Index)を併用したオンライントポロジ対応型神経表現モニタを提案する。
コンプレックスを再構築する代わりに、スパース編集を一定のスケールで適用し、離散的なモースマッチングを維持し、高速でインクリメンタルな更新をもたらす。
論文 参考訳(メタデータ) (2026-04-28T19:21:21Z) - Synergistic Perception and Generative Recomposition: A Multi-Agent Orchestration for Expert-Level Building Inspection [6.469960133115484]
ファサード欠陥検査は、構造的健康モニタリングと持続可能な都市維持に不可欠である。
textitFacadeFixerは、欠陥認識を独立した認識ではなく、協調的な推論タスクとして扱う。
textitFacadeFixerは、マルチタイプの欠陥干渉を処理するために、検出とセグメンテーションのための特別なエージェントを編成する。
textitFacadeFixerは最先端(SOTA)ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-03-20T17:17:22Z) - CLAIRE: Compressed Latent Autoencoder for Industrial Representation and Evaluation -- A Deep Learning Framework for Smart Manufacturing [51.56484100374058]
CLAIREは、教師なしの深層表現学習と、スマート製造システムにおけるインテリジェントな品質管理のための教師付き分類を統合したハイブリッドエンドツーエンド学習フレームワークである。
最適化されたディープオートエンコーダを使用して、生の入力をコンパクトな潜伏空間に変換し、不適切な特徴やノイズを抑えながら本質的なデータ構造を効果的にキャプチャする。
提案したフレームワークは、堅牢な障害検出のために、説明可能なAIと機能認識の正規化を統合する可能性を強調している。
論文 参考訳(メタデータ) (2026-03-06T15:11:58Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Plain Transformers are Surprisingly Powerful Link Predictors [57.01966734467712]
リンク予測はグラフ機械学習における中核的な課題であり、リッチで複雑なトポロジ的依存関係をキャプチャするモデルを必要とする。
グラフニューラルネットワーク(GNN)が標準的なソリューションであるのに対して、最先端のパイプラインは明示的な構造やメモリ集約的なノードの埋め込みに依存していることが多い。
本報告では,手作りのプリミティブに置き換えるエンコーダのみのプレーントランスであるPENCILについて,サンプリングしたローカルサブグラフに注目する。
論文 参考訳(メタデータ) (2026-02-02T02:45:52Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Ensuring Topological Data-Structure Preservation under Autoencoder
Compression due to Latent Space Regularization in Gauss--Legendre nodes [0.0]
我々は、正規化されたオートエンコーダが初期データ多様体をその潜在表現に1対1で再埋め込みすることを証明した。
この観察は、古典的なFashionMNISTデータセットを通じて、MRI脳スキャンの問題を実世界まで拡張する。
論文 参考訳(メタデータ) (2023-09-15T07:58:26Z) - Towards Robust Blind Face Restoration with Codebook Lookup Transformer [94.48731935629066]
ブラインドフェイスの修復は、しばしば補助的なガイダンスを必要とする非常に不適切な問題である。
学習した個別のコードブックを小さなプロキシ空間に配置し,ブラインドフェイスの復元をコード予測タスクとすることを示す。
我々は、低品質顔のグローバルな構成とコンテキストをモデル化するトランスフォーマーベースの予測ネットワーク、CodeFormerを提案する。
論文 参考訳(メタデータ) (2022-06-22T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。