論文の概要: ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding
- arxiv url: http://arxiv.org/abs/2605.17214v1
- Date: Sun, 17 May 2026 01:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.736493
- Title: ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding
- Title(参考訳): ChemVA: 化学反応図理解における大規模言語モデルの改善
- Authors: Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen,
- Abstract要約: 大規模言語モデル (LLM) は、科学的なテキスト処理に革命をもたらしたが、化学反応図を解釈する際には、大きな能力ギャップが現れる。
本稿では,視覚アンカー機構を用いたケミカルビジュアルアクティベーション(ChemVA)フレームワークを提案する。
我々は,高密度な視覚・セマンティックな文脈を特徴とする新たに構築されたデータセットであるOCRD-Benchに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 56.94419746470799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have revolutionized scientific text processing, they exhibit a significant capability gap when interpreting chemical reaction diagrams. We identify two fundamental bottlenecks restricting current systems: a Visual Deficit, where generic vision encoders struggle to resolve the strict topological connectivity of dense molecular graphs, and a Semantic Disconnect, where standard linear strings, such as SMILES, fail to effectively activate the model's latent chemical reasoning. To bridge these gaps, we propose the Chemical Visual Activation (ChemVA) framework, which employs a Visual Anchor mechanism to ground functional groups via hybrid-granularity detection, followed by a semantic alignment approach that translates visual features into entity names to maximize knowledge activation in LLMs. We evaluate our approach on OCRD-Bench, a newly constructed dataset featuring dense visual-semantic contexts and comprehensive reaction coverage to evaluate the full spectrum from recognition to reasoning. Extensive experiments on OCRD-Bench demonstrate that ChemVA achieves 92.0% structural recognition accuracy. By bridging visual and semantic bottlenecks, our framework delivers a consistent performance gain of approximately 20 percentage points across 9 diverse LLMs, enabling open-weight models to rival proprietary SOTA systems in complex chemical reasoning tasks.
- Abstract(参考訳): LLM(Large Language Models)は科学的なテキスト処理に革命をもたらしたが、化学反応図を解釈する際には大きな能力ギャップが現れる。
一般的な視覚エンコーダが高密度な分子グラフの厳密なトポロジカル接続を解決するのに苦労するビジュアルデフィシットと、SMILESのような標準線形文字列が、モデルが潜在する化学推論を効果的に活性化できないセマンティック・ディスコネクトの2つの基本的なボトルネックを特定する。
これらのギャップを埋めるため,視覚的特徴を実体名に変換するセマンティックアライメントアプローチにより,LLMにおける知識アクティベーションを最大化するために,視覚的アンカー機構を用いて,ハイブリッドな粒度検出によって機能群を基盤とするケミカルビジュアルアクティベーション(ChemVA)フレームワークを提案する。
我々は、認識から推論までの全スペクトルを評価するために、濃密な視覚意味コンテキストと包括的な反応カバレッジを備えた新しく構築されたデータセットであるOCRD-Benchについて、我々のアプローチを評価した。
OCRD-Benchの大規模な実験により、ChemVAは92.0%の構造認識精度を達成した。
視覚的およびセマンティックなボトルネックをブリッジすることで、我々のフレームワークは9つの異なるLCMに対して約20パーセントのパフォーマンス向上を実現し、オープンウェイトモデルが複雑な化学的推論タスクにおいて独自のSOTAシステムと競合することを可能にする。
関連論文リスト
- ChemVLR: Prioritizing Reasoning in Perception for Chemical Vision-Language Understanding [18.366771283768344]
本稿では,認識過程における推論の優先順位付けを目的とした化学VLMであるChemVLRを紹介する。
従来の化学VLMとは異なり、ChemVLRは視覚入力をきめ細かい方法で分析する。
ChemVLRは、複雑な視覚化学的問題に対する明示的で解釈可能な推論経路を生成する。
論文 参考訳(メタデータ) (2026-04-08T05:01:59Z) - Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing [52.825281124618535]
反応図解析(RxnDP)は、文献から化学合成情報を抽出するために重要である。
近年の視覚言語モデル(VLM)はこの複雑な視覚的推論タスクを自動化するための有望なパラダイムとして登場した。
この研究はVLMベースのRxnDPを2つの相補的視点、すなわち表現の促進と学習パラダイムから強化する。
論文 参考訳(メタデータ) (2026-03-16T09:17:05Z) - RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature [25.978951548176706]
RxnBenchは科学的なPDFから化学反応を理解する上でMLLMを厳格に評価するためのベンチマークである。
RxnBenchは2つのタスクからなる: きめ細かい視覚知覚と機械的推論をテストするシングルフィギュアQA (SF-QA) と、108の記事から情報を合成するためのモデルに挑戦するフルドキュメントQA (FD-QA) である。
MLLMの評価は, 明確なテキストの抽出に優れたモデルではあるものの, 深層化学論理と正確な構造認識に苦慮している。
論文 参考訳(メタデータ) (2025-12-29T16:05:38Z) - ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry [14.083820970280668]
ChemVTS-Benchは、マルチモーダル大言語モデル(MLLM)の視覚的テキスト・シンボリック(VTS)推論能力を評価するために設計されたドメイン認証ベンチマークである。
ChemVTS-Benchは、有機分子、無機物質、および3D結晶構造にまたがる多様で困難な化学問題を含んでいる。
我々は、推論を標準化し、回答を検証し、障害モードを診断する自動エージェントベースのワークフローを開発する。
論文 参考訳(メタデータ) (2025-11-22T04:24:24Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。