論文の概要: ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry
- arxiv url: http://arxiv.org/abs/2511.17909v1
- Date: Sat, 22 Nov 2025 04:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.509318
- Title: ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry
- Title(参考訳): ChemVTS-Bench: 化学における多モード大言語モデルの視覚-テキスト-シンボリック推論の評価
- Authors: Zhiyuan Huang, Baichuan Yang, Zikun He, Yanhong Wu, Fang Hongyu, Zhenhe Liu, Lin Dongsheng, Bing Su,
- Abstract要約: ChemVTS-Benchは、マルチモーダル大言語モデル(MLLM)の視覚的テキスト・シンボリック(VTS)推論能力を評価するために設計されたドメイン認証ベンチマークである。
ChemVTS-Benchは、有機分子、無機物質、および3D結晶構造にまたがる多様で困難な化学問題を含んでいる。
我々は、推論を標準化し、回答を検証し、障害モードを診断する自動エージェントベースのワークフローを開発する。
- 参考スコア(独自算出の注目度): 14.083820970280668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chemical reasoning inherently integrates visual, textual, and symbolic modalities, yet existing benchmarks rarely capture this complexity, often relying on simple image-text pairs with limited chemical semantics. As a result, the actual ability of Multimodal Large Language Models (MLLMs) to process and integrate chemically meaningful information across modalities remains unclear. We introduce \textbf{ChemVTS-Bench}, a domain-authentic benchmark designed to systematically evaluate the Visual-Textual-Symbolic (VTS) reasoning abilities of MLLMs. ChemVTS-Bench contains diverse and challenging chemical problems spanning organic molecules, inorganic materials, and 3D crystal structures, with each task presented in three complementary input modes: (1) visual-only, (2) visual-text hybrid, and (3) SMILES-based symbolic input. This design enables fine-grained analysis of modality-dependent reasoning behaviors and cross-modal integration. To ensure rigorous and reproducible evaluation, we further develop an automated agent-based workflow that standardizes inference, verifies answers, and diagnoses failure modes. Extensive experiments on state-of-the-art MLLMs reveal that visual-only inputs remain challenging, structural chemistry is the hardest domain, and multimodal fusion mitigates but does not eliminate visual, knowledge-based, or logical errors, highlighting ChemVTS-Bench as a rigorous, domain-faithful testbed for advancing multimodal chemical reasoning. All data and code will be released to support future research.
- Abstract(参考訳): 化学的推論は本質的に視覚的、テキスト的、シンボリックなモダリティを統合するが、既存のベンチマークはこの複雑さを捉えることは滅多になく、しばしば限定的な化学意味論を持つ単純な画像テキストペアに依存している。
その結果,Multimodal Large Language Models (MLLMs) の化学的な意味のある情報をモダリティ間で処理し,統合する能力は明らかになっていない。
MLLMの視覚的テキスト・シンボリック推論能力(VTS)を体系的に評価するために設計されたドメイン認証ベンチマークである。
ChemVTS-Benchは、有機分子、無機物質、および3D結晶構造にまたがる多様かつ困難な化学問題を含み、各タスクは、(1)視覚のみ、(2)視覚テキストハイブリッド、(3)SMILESベースのシンボル入力の3つの相補的な入力モードで表される。
この設計により、モダリティに依存した推論挙動のきめ細かい解析と相互統合が可能となる。
厳密で再現可能な評価を保証するため,推論を標準化し,回答を検証し,障害モードを診断する自動エージェントベースのワークフローをさらに開発する。
最先端のMLLMに関する大規模な実験では、視覚のみの入力は依然として困難であり、構造化学は最も難しいドメインであり、マルチモーダル融合は軽減されるが、視覚的、知識的、論理的誤りを排除せず、ChemVTS-Benchは多モーダル化学推論を進めるための厳密でドメインに忠実なテストベッドとして強調している。
すべてのデータとコードは、将来の研究をサポートするためにリリースされます。
関連論文リスト
- TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks [25.14617060799698]
この研究は、モデルアーキテクチャとタスク複雑性を共同設計することで、化学ドメインのための効率的かつ強力なビジョン言語モデル(VLM)を構築する。
4Bパラメータしか持たないTinyChemVLは、既存のモデルよりも高速な推論とトレーニング速度を示しながら、分子および反応タスクの両方で優れた性能を達成する。
論文 参考訳(メタデータ) (2025-11-09T08:37:18Z) - QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [19.804237919102903]
QCBenchは7つの化学サブフィールドにわたる350の計算化学問題からなる定量化学指向のベンチマークである。
それぞれの問題は、ショートカットを防止し、明示的な数値推論を要求するように構成されている。
QCBenchは、計算の弱点のきめ細かい診断を可能にし、モデル固有の制限を明らかにし、将来の改善の基盤となる。
論文 参考訳(メタデータ) (2025-08-03T08:55:42Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables [48.39080455781475]
ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
論文 参考訳(メタデータ) (2025-06-13T00:45:41Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [70.66610054938052]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。