論文の概要: RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning
- arxiv url: http://arxiv.org/abs/2511.02384v1
- Date: Tue, 04 Nov 2025 09:08:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.865884
- Title: RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning
- Title(参考訳): RxnCaption:Visual Prompt Guided Captioningとしてのリアクションダイアグラム解析
- Authors: Jiahe Song, Chuang Wang, Bowen Jiang, Yinfan Wang, Hao Zheng, Xingjian Wei, Chengjin Liu, Junyuan Gao, Yubin Wang, Lijun Wu, Jiang Wu, Qian Yu, Conghui He,
- Abstract要約: 化学反応図解析(RxnDP)のためのRxnCaptionフレームワークを提案する。
本フレームワークは,従来の座標予測による解析処理を画像キャプション問題に再構成する。
我々は,BBox and Index as Visual Prompt (BIVP) という,最先端の分子検出器である MolYOLO を用いて,分子境界ボックスやインデックスを直接入力画像上に描画する戦略を紹介した。
- 参考スコア(独自算出の注目度): 51.393018266721576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale chemical reaction datasets are crucial for AI research in chemistry. However, existing chemical reaction data often exist as images within papers, making them not machine-readable and unusable for training machine learning models. In response to this challenge, we propose the RxnCaption framework for the task of chemical Reaction Diagram Parsing (RxnDP). Our framework reformulates the traditional coordinate prediction driven parsing process into an image captioning problem, which Large Vision-Language Models (LVLMs) handle naturally. We introduce a strategy termed "BBox and Index as Visual Prompt" (BIVP), which uses our state-of-the-art molecular detector, MolYOLO, to pre-draw molecular bounding boxes and indices directly onto the input image. This turns the downstream parsing into a natural-language description problem. Extensive experiments show that the BIVP strategy significantly improves structural extraction quality while simplifying model design. We further construct the RxnCaption-11k dataset, an order of magnitude larger than prior real-world literature benchmarks, with a balanced test subset across four layout archetypes. Experiments demonstrate that RxnCaption-VL achieves state-of-the-art performance on multiple metrics. We believe our method, dataset, and models will advance structured information extraction from chemical literature and catalyze broader AI applications in chemistry. We will release data, models, and code on GitHub.
- Abstract(参考訳): 化学におけるAI研究には、大規模な化学反応データセットが不可欠である。
しかし、既存の化学反応データは、しばしば論文内の画像として存在し、機械学習モデルのトレーニングには機械で読めず、使用できない。
この課題に対応するために,化学反応図解析(RxnDP)のためのRxnCaptionフレームワークを提案する。
我々のフレームワークは、従来の座標予測による解析プロセスを画像キャプション問題に再構成し、LVLM(Large Vision-Language Models)が自然に扱う。
我々は,BBox and Index as Visual Prompt (BIVP) という,最先端の分子検出器である MolYOLO を用いて,分子境界ボックスやインデックスを直接入力画像上に描画する戦略を紹介した。
これにより、下流の構文解析は自然言語記述問題に変換される。
BIVP戦略はモデル設計を簡素化しつつ,構造抽出品質を著しく向上させることを示した。
さらに、RxnCaption-11kデータセットを構築し、4つのレイアウトアーキタイプにまたがるバランスの取れたテストサブセットを用いて、従来の実世界の文献ベンチマークよりも桁違いに大きくなった。
実験によると、RxnCaption-VLは複数のメトリクスで最先端のパフォーマンスを達成する。
我々の手法、データセット、モデルは、化学文献から構造化された情報を抽出し、化学におけるより広範なAI応用を触媒するであろうと信じている。
データ、モデル、コードをGitHubでリリースします。
関連論文リスト
- ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Towards Large-scale Chemical Reaction Image Parsing via a Multimodal Large Language Model [4.860497022313892]
化学反応画像を機械可読データに解析するために,反応画像マルチモーダル大言語モデル(RxnIM)を導入する。
RxnIMは反応画像から重要な化学成分を抽出し、反応条件を記述したテキスト内容を解釈する。
提案手法は,各種ベンチマークでF1スコアが平均88%,文献手法が5%を超え,優れた性能を実現している。
論文 参考訳(メタデータ) (2025-03-11T08:11:23Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Predictive Chemistry Augmented with Text Retrieval [37.59545092901872]
文献から得られたテキストで予測化学を直接拡張する新しい方法であるTextReactを紹介する。
TextReactは、所定の化学反応に関連するテキスト記述を検索し、それらを反応の分子的表現と整合させる。
反応条件の推薦と1段階の逆合成という2つの化学課題の枠組みを実証的に検証した。
論文 参考訳(メタデータ) (2023-12-08T07:40:59Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Permutation invariant graph-to-sequence model for template-free
retrosynthesis and reaction prediction [2.5655440962401617]
本稿では,テキスト生成のためのトランスフォーマーモデルのパワーと,分子グラフエンコーダの置換不変性を組み合わせた新しいGraph2SMILESモデルについて述べる。
エンドツーエンドアーキテクチャとして、Graph2SMILESは、分子から分子への変換を含むあらゆるタスクにおいて、Transformerのドロップイン置換として使用できる。
論文 参考訳(メタデータ) (2021-10-19T01:23:15Z) - Retrosynthesis Prediction with Conditional Graph Logic Network [118.70437805407728]
コンピュータ支援のレトロシンセシスは、化学と計算機科学の双方から新たな関心を集めている。
本稿では,グラフニューラルネットワーク上に構築された条件付きグラフィカルモデルであるConditional Graph Logic Networkを用いて,この課題に対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-06T05:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。