論文の概要: ChemVLR: Prioritizing Reasoning in Perception for Chemical Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2604.06685v1
- Date: Wed, 08 Apr 2026 05:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.346079
- Title: ChemVLR: Prioritizing Reasoning in Perception for Chemical Vision-Language Understanding
- Title(参考訳): ChemVLR:化学ビジョンの理解における推論の優先順位付け
- Authors: Xuanle Zhao, Xinyuan Cai, Xiang Cheng, Xiuyi Chen, Bo Xu,
- Abstract要約: 本稿では,認識過程における推論の優先順位付けを目的とした化学VLMであるChemVLRを紹介する。
従来の化学VLMとは異なり、ChemVLRは視覚入力をきめ細かい方法で分析する。
ChemVLRは、複雑な視覚化学的問題に対する明示的で解釈可能な推論経路を生成する。
- 参考スコア(独自算出の注目度): 18.366771283768344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language Models (VLMs) have demonstrated significant potential in chemical visual understanding, current models are predominantly optimized for direct visual question-answering tasks. This paradigm often results in "black-box" systems that fail to utilize the inherent capability of Large Language Models (LLMs) to infer underlying reaction mechanisms. In this work, we introduce ChemVLR, a chemical VLM designed to prioritize reasoning within the perception process. Unlike conventional chemical VLMs, ChemVLR analyzes visual inputs in a fine-grained manner by explicitly identifying granular chemical descriptors, such as functional groups, prior to generating answers. This approach ensures the production of explicit and interpretable reasoning paths for complex visual chemical problems. To facilitate this methodology, we implement a cross-modality reverse-engineering strategy, combined with a rigorous filtering pipeline, to curate a large-scale reasoning-and-captioning dataset comprising 760k high-quality samples across molecular and reaction tasks. Furthermore, we adopt a three-stage training framework that systemically builds model perception and reasoning capacity. Experiments demonstrate that ChemVLR achieves state-of-the-art (SOTA) performance, surpassing both leading proprietary models and domain-specific open-source baselines. We also provide comprehensive ablation studies to validate our training strategy and data generation designs. Code and model weights will be available at https://github.com/xxlllz/ChemVLR.
- Abstract(参考訳): VLM(Vision-Language Models)は化学的な視覚的理解において大きな可能性を示しているが、現在のモデルは直接的な視覚的質問応答タスクに主に最適化されている。
このパラダイムは、大きな言語モデル(LLM)の固有の能力を利用して、基盤となる反応機構を推論する「ブラックボックス」システムをもたらすことが多い。
本稿では,認識過程における推論の優先順位付けを目的とした化学VLMであるChemVLRを紹介する。
従来の化学VLMとは異なり、ChemVLRは、答えを生成する前に、機能基のような粒度の化学記述子を明示的に識別することで、視覚的な入力をきめ細かな方法で分析する。
このアプローチは、複雑な視覚化学問題に対する明示的で解釈可能な推論経路の生成を保証する。
この手法を実現するために,分子・反応タスク間で760万個の高品質なサンプルからなる大規模推論・カプセル化データセットをキュレートするために,厳密なフィルタリングパイプラインと組み合わされたクロスモーダルリバースエンジニアリング戦略を実装した。
さらに、モデル知覚と推論能力を体系的に構築する3段階のトレーニングフレームワークも採用しています。
実験により、ChemVLRは最先端のプロプライエタリモデルとドメイン固有のオープンソースベースラインの両方を超越して、最先端(SOTA)のパフォーマンスを達成することが示された。
また、トレーニング戦略とデータ生成設計を検証するための総合的なアブレーション研究も行っている。
コードとモデルの重み付けはhttps://github.com/xxlllz/ChemVLR.comで入手できる。
関連論文リスト
- Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing [52.825281124618535]
反応図解析(RxnDP)は、文献から化学合成情報を抽出するために重要である。
近年の視覚言語モデル(VLM)はこの複雑な視覚的推論タスクを自動化するための有望なパラダイムとして登場した。
この研究はVLMベースのRxnDPを2つの相補的視点、すなわち表現の促進と学習パラダイムから強化する。
論文 参考訳(メタデータ) (2026-03-16T09:17:05Z) - Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis [51.83339196548892]
ChemCraftは、知識ストレージから化学推論を分離する新しいフレームワークである。
ChemCraftは最小の推論コストで優れたパフォーマンスを実現する。
この研究は、AI支援化学のコスト効率とプライバシ保護のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-25T04:23:34Z) - TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks [25.14617060799698]
この研究は、モデルアーキテクチャとタスク複雑性を共同設計することで、化学ドメインのための効率的かつ強力なビジョン言語モデル(VLM)を構築する。
4Bパラメータしか持たないTinyChemVLは、既存のモデルよりも高速な推論とトレーニング速度を示しながら、分子および反応タスクの両方で優れた性能を達成する。
論文 参考訳(メタデータ) (2025-11-09T08:37:18Z) - ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge [14.6026550444088]
この研究は化学の特定の分野に焦点をあて、ケミカル・リアソナー LLM, ChemDFM-R を開発した。
まず、原子化知識点の包括的データセットを構築し、モデルの基本原理と化学の論理構造に対する理解を深める。
多様な化学ベンチマークの実験により、ChemDFM-Rは、解釈可能で合理的な出力を提供しながら、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-07-29T16:40:49Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations [43.623140005091535]
我々は、分子構造理解を算術に着想を得た演算でブリッジする推論フレームワークであるChemCoTBenchを紹介する。
ChemCoTBenchは、化学的問題解決を透明でステップバイステップの推論に形式化する。
分子特性最適化と化学反応予測という2つの高影響タスクのモデルを評価する。
論文 参考訳(メタデータ) (2025-05-27T15:15:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。