論文の概要: Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing
- arxiv url: http://arxiv.org/abs/2603.15011v2
- Date: Tue, 17 Mar 2026 06:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.955931
- Title: Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing
- Title(参考訳): 化学反応図解析のための分子識別器の視覚プロンプトと検証可能な強化学習
- Authors: Jiahe Song, Chuang Wang, Yinfan Wang, Hao Zheng, Rui Nie, Bowen Jiang, Xingjian Wei, Junyuan Gao, Yubin Wang, Bin Wang, Lijun Wu, Jiang Wu, Qian Yu, Conghui He,
- Abstract要約: 反応図解析(RxnDP)は、文献から化学合成情報を抽出するために重要である。
近年の視覚言語モデル(VLM)はこの複雑な視覚的推論タスクを自動化するための有望なパラダイムとして登場した。
この研究はVLMベースのRxnDPを2つの相補的視点、すなわち表現の促進と学習パラダイムから強化する。
- 参考スコア(独自算出の注目度): 52.825281124618535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reaction diagram parsing (RxnDP) is critical for extracting chemical synthesis information from literature. Although recent Vision-Language Models (VLMs) have emerged as a promising paradigm to automate this complex visual reasoning task, their application is fundamentally bottlenecked by the inability to align visual chemical entities with pre-trained knowledge, alongside the inherent discrepancy between token-level training and reaction-level evaluation. To address these dual challenges, this work enhances VLM-based RxnDP from two complementary perspectives: prompting representation and learning paradigms. First, we propose Identifier as Visual Prompting (IdtVP), which leverages naturally occurring molecule identifiers (e.g., bold numerals like 1a) to activate the chemical knowledge acquired during VLM pre-training. IdtVP enables powerful zero-shot and out-of-distribution capabilities, outperforming existing prompting strategies. Second, to further optimize performance within fine-tuning paradigms, we introduce Re3-DAPO, a reinforcement learning algorithm that leverages verifiable rewards to directly optimize reaction-level metrics, thereby achieving consistent gains over standard supervised fine-tuning. Additionally, we release the ScannedRxn benchmark, comprising scanned historical reaction diagrams with real-world artifacts, to rigorously assess model robustness and out-of-distribution ability. Our contributions advance the accuracy and generalization of VLM-based reaction diagram parsing. We will release data, models, and code on GitHub.
- Abstract(参考訳): 反応図解析(RxnDP)は、文献から化学合成情報を抽出するために重要である。
近年のビジョン・ランゲージ・モデル(VLM)は、この複雑な視覚的推論タスクを自動化するための有望なパラダイムとして登場したが、それらの応用は、トークンレベルのトレーニングと反応レベルの評価の固有の相違とともに、視覚化学的実体を事前訓練された知識と整合する能力の欠如によって、根本的にボトルネックになっている。
この2つの課題に対処するために、この研究はVLMベースのRxnDPを2つの相補的な視点から拡張する。
まず、自然に生じる分子識別子(例えば、1aのような大胆な数字)を活用して、VLM事前学習中に得られる化学知識を活性化する視覚プロンプト(IdtVP)として同定器を提案する。
IdtVPは強力なゼロショットとアウト・オブ・ディストリビューション機能を実現し、既存のプロンプト戦略を上回っている。
第二に、微調整パラダイムにおけるパフォーマンスをさらに最適化するために、検証可能な報酬を利用して反応レベルのメトリクスを直接最適化する強化学習アルゴリズムRe3-DAPOを導入する。
さらに,ScannedRxnベンチマークを公開し,実世界の成果物を用いた歴史的反応図を作成し,モデルロバスト性とアウト・オブ・ディストリビューション能力の厳密な評価を行った。
我々の貢献は、VLMに基づく反応図解析の精度と一般化を推し進める。
データ、モデル、コードをGitHubでリリースします。
関連論文リスト
- DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models [27.64151438258739]
本稿では,新しい説明可能性法であるDEC-ARを提案する。
それは、モデルのテキスト応答に不可欠な画像領域を強調する、トーケン単位とシーケンスレベルの2Dヒートマップの両方を生成する。
ImageNet, VQAv2, PascalVOC による評価では, 両摂動測定値に一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-03-06T14:07:37Z) - RxnNano:Training Compact LLMs for Chemical Reaction and Retrosynthesis Prediction via Hierarchical Curriculum Learning [20.904697361501174]
私たちは、これらの知識をモデルに取り入れることが、中心的な課題であると主張している。
3つの重要な革新を通じて,化学的な理解を大規模に優先する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2026-02-10T07:42:23Z) - ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning [51.393018266721576]
化学反応図解析(RxnDP)のためのRxnCaptionフレームワークを提案する。
本フレームワークは,従来の座標予測による解析処理を画像キャプション問題に再構成する。
我々は,BBox and Index as Visual Prompt (BIVP) という,最先端の分子検出器である MolYOLO を用いて,分子境界ボックスやインデックスを直接入力画像上に描画する戦略を紹介した。
論文 参考訳(メタデータ) (2025-11-04T09:08:44Z) - GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition [60.76623665324548]
GTR-Mol-VLMは、2つの重要な革新を特徴とする新しいフレームワークである。
シーケンシャルな原子結合予測を通じて分子グラフを段階的に解析することで、人間の推論をエミュレートする。
MolRec-BenchはOCSRにおけるグラフパーシング精度の詳細な評価のために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-06-09T08:47:10Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。