Fugu-MT 論文翻訳(概要): ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

論文の概要: ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

arxiv url: http://arxiv.org/abs/2605.17214v1
Date: Sun, 17 May 2026 01:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.736493
Title: ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding
Title（参考訳）: ChemVA: 化学反応図理解における大規模言語モデルの改善
Authors: Mingyang Rao, Kehua Feng, Zhihui Zhu, Jiangzhen Fu, Hao Yu, Keyan Ding, Huajun Chen,
Abstract要約: 大規模言語モデル (LLM) は、科学的なテキスト処理に革命をもたらしたが、化学反応図を解釈する際には、大きな能力ギャップが現れる。本稿では,視覚アンカー機構を用いたケミカルビジュアルアクティベーション(ChemVA)フレームワークを提案する。我々は,高密度な視覚・セマンティックな文脈を特徴とする新たに構築されたデータセットであるOCRD-Benchに対するアプローチを評価する。
参考スコア（独自算出の注目度）: 56.94419746470799
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Large Language Models (LLMs) have revolutionized scientific text processing, they exhibit a significant capability gap when interpreting chemical reaction diagrams. We identify two fundamental bottlenecks restricting current systems: a Visual Deficit, where generic vision encoders struggle to resolve the strict topological connectivity of dense molecular graphs, and a Semantic Disconnect, where standard linear strings, such as SMILES, fail to effectively activate the model's latent chemical reasoning. To bridge these gaps, we propose the Chemical Visual Activation (ChemVA) framework, which employs a Visual Anchor mechanism to ground functional groups via hybrid-granularity detection, followed by a semantic alignment approach that translates visual features into entity names to maximize knowledge activation in LLMs. We evaluate our approach on OCRD-Bench, a newly constructed dataset featuring dense visual-semantic contexts and comprehensive reaction coverage to evaluate the full spectrum from recognition to reasoning. Extensive experiments on OCRD-Bench demonstrate that ChemVA achieves 92.0% structural recognition accuracy. By bridging visual and semantic bottlenecks, our framework delivers a consistent performance gain of approximately 20 percentage points across 9 diverse LLMs, enabling open-weight models to rival proprietary SOTA systems in complex chemical reasoning tasks.
Abstract（参考訳）: LLM(Large Language Models)は科学的なテキスト処理に革命をもたらしたが、化学反応図を解釈する際には大きな能力ギャップが現れる。一般的な視覚エンコーダが高密度な分子グラフの厳密なトポロジカル接続を解決するのに苦労するビジュアルデフィシットと、SMILESのような標準線形文字列が、モデルが潜在する化学推論を効果的に活性化できないセマンティック・ディスコネクトの2つの基本的なボトルネックを特定する。これらのギャップを埋めるため,視覚的特徴を実体名に変換するセマンティックアライメントアプローチにより,LLMにおける知識アクティベーションを最大化するために,視覚的アンカー機構を用いて,ハイブリッドな粒度検出によって機能群を基盤とするケミカルビジュアルアクティベーション(ChemVA)フレームワークを提案する。我々は、認識から推論までの全スペクトルを評価するために、濃密な視覚意味コンテキストと包括的な反応カバレッジを備えた新しく構築されたデータセットであるOCRD-Benchについて、我々のアプローチを評価した。 OCRD-Benchの大規模な実験により、ChemVAは92.0%の構造認識精度を達成した。視覚的およびセマンティックなボトルネックをブリッジすることで、我々のフレームワークは9つの異なるLCMに対して約20パーセントのパフォーマンス向上を実現し、オープンウェイトモデルが複雑な化学的推論タスクにおいて独自のSOTAシステムと競合することを可能にする。

論文の概要: ChemVA: Advancing Large Language Models on Chemical Reaction Diagrams Understanding

関連論文リスト