論文の概要: MolSight: Optical Chemical Structure Recognition with SMILES Pretraining, Multi-Granularity Learning and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.17300v1
- Date: Fri, 21 Nov 2025 15:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.070778
- Title: MolSight: Optical Chemical Structure Recognition with SMILES Pretraining, Multi-Granularity Learning and Reinforcement Learning
- Title(参考訳): MolSight:SMILES Pretraining, Multi-Granularity Learning, Reinforcement Learningによる光学化学構造認識
- Authors: Wenrui Zhang, Xinggang Wang, Bin Feng, Wenyu Liu,
- Abstract要約: MolSightは総合的な学習フレームワークで、3段階のトレーニングパラダイムを採用している。
我々は,MollSightが(ステレオ)化学光学構造認識における最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 47.029225594084345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Chemical Structure Recognition (OCSR) plays a pivotal role in modern chemical informatics, enabling the automated conversion of chemical structure images from scientific literature, patents, and educational materials into machine-readable molecular representations. This capability is essential for large-scale chemical data mining, drug discovery pipelines, and Large Language Model (LLM) applications in related domains. However, existing OCSR systems face significant challenges in accurately recognizing stereochemical information due to the subtle visual cues that distinguish stereoisomers, such as wedge and dash bonds, ring conformations, and spatial arrangements. To address these challenges, we propose MolSight, a comprehensive learning framework for OCSR that employs a three-stage training paradigm. In the first stage, we conduct pre-training on large-scale but noisy datasets to endow the model with fundamental perception capabilities for chemical structure images. In the second stage, we perform multi-granularity fine-tuning using datasets with richer supervisory signals, systematically exploring how auxiliary tasks-specifically chemical bond classification and atom localization-contribute to molecular formula recognition. Finally, we employ reinforcement learning for post-training optimization and introduce a novel stereochemical structure dataset. Remarkably, we find that even with MolSight's relatively compact parameter size, the Group Relative Policy Optimization (GRPO) algorithm can further enhance the model's performance on stereomolecular. Through extensive experiments across diverse datasets, our results demonstrate that MolSight achieves state-of-the-art performance in (stereo)chemical optical structure recognition.
- Abstract(参考訳): 光化学構造認識(OCSR)は、化学情報学において重要な役割を担い、科学文献、特許、教育材料から機械可読な分子表現への化学構造画像の自動変換を可能にする。
この機能は、大規模化学データマイニング、薬物発見パイプライン、および関連する領域におけるLarge Language Model (LLM)アプリケーションに必須である。
しかし、既存のOCSRシステムは、くさびやダッシュ結合、リング配座、空間配置などの立体異性体を区別する微妙な視覚的手がかりにより、立体化学情報を正確に認識する上で大きな課題に直面している。
これらの課題に対処するために,3段階のトレーニングパラダイムを用いたOCSRの総合的な学習フレームワークであるMollSightを提案する。
第1段階では、大規模だがノイズの多いデータセットで事前学習を行い、化学構造画像に対する基本的な知覚能力を持つモデルを実現する。
第2段階では、よりリッチな監督信号を持つデータセットを用いて多粒度微調整を行い、補助的なタスクが化学結合の分類や原子局在が分子式認識にどのように寄与するかを体系的に検討する。
最後に、学習後最適化のための強化学習を採用し、新しい立体化学構造データセットを導入する。
注目すべきことに、MollSightの比較的コンパクトなパラメータサイズであっても、グループ相対ポリシー最適化(GRPO)アルゴリズムはステレオ分子上でのモデルの性能をさらに向上させることができる。
多様なデータセットにわたる広範囲な実験を通じて,MollSightは,(ステレオ)化学光学構造認識における最先端の性能を実証した。
関連論文リスト
- Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.79349601462865]
ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文 参考訳(メタデータ) (2025-09-20T05:43:58Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - Causal integration of chemical structures improves representations of microscopy images for morphological profiling [25.027684911103897]
そこで我々は, 化学化合物を細胞表現型の非現実的変換を誘導する処理としてモデル化する表現学習フレームワークMICONを紹介する。
化学物質情報を学習プロセスに組み込むことによって,評価設定の一貫性が向上することが実証された。
本研究は, 形態素プロファイリングにおける表現学習の新たな方向を示唆し, 顕微鏡スクリーニングデータのマルチモーダルな性質を明示的に考慮すべきであることを示唆した。
論文 参考訳(メタデータ) (2025-04-13T12:27:21Z) - DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
本稿では,DiffMSを提案する。DiffMS,式制限付きエンコーダ・デコーダ生成ネットワークは,このタスクにおける最先端性能を実現する。
遅延埋め込みと分子構造をブリッジするロバストデコーダを開発するために,フィンガー構造対による拡散デコーダの事前訓練を行う。
確立されたベンチマーク実験により、DiffMSはデノボ分子生成における既存のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Leveraging Chemistry Foundation Models to Facilitate Structure Focused Retrieval Augmented Generation in Multi-Agent Workflows for Catalyst and Materials Design [0.0]
ケミカル基礎モデルは,構造に着目したセマンティックケミカル情報検索の基盤として機能することを示す。
また,OpenCLIP などのマルチモーダルモデルと化学基礎モデルの併用について述べる。
論文 参考訳(メタデータ) (2024-08-21T17:25:45Z) - Atom-Level Optical Chemical Structure Recognition with Limited Supervision [14.487346160322653]
本稿では,最先端性能を実現する新しい化学構造認識ツールを提案する。
従来の手法とは異なり、本手法は原子レベルの局所化を提供する。
我々のモデルは、SMILESの監督のみで原子レベルの実体検出を行い、OCSRを実行する最初のモデルである。
論文 参考訳(メタデータ) (2024-04-02T09:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。