論文の概要: ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry
- arxiv url: http://arxiv.org/abs/2511.17909v1
- Date: Sat, 22 Nov 2025 04:24:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.509318
- Title: ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry
- Title(参考訳): ChemVTS-Bench: 化学における多モード大言語モデルの視覚-テキスト-シンボリック推論の評価
- Authors: Zhiyuan Huang, Baichuan Yang, Zikun He, Yanhong Wu, Fang Hongyu, Zhenhe Liu, Lin Dongsheng, Bing Su,
- Abstract要約: ChemVTS-Benchは、マルチモーダル大言語モデル(MLLM)の視覚的テキスト・シンボリック(VTS)推論能力を評価するために設計されたドメイン認証ベンチマークである。
ChemVTS-Benchは、有機分子、無機物質、および3D結晶構造にまたがる多様で困難な化学問題を含んでいる。
我々は、推論を標準化し、回答を検証し、障害モードを診断する自動エージェントベースのワークフローを開発する。
- 参考スコア(独自算出の注目度): 14.083820970280668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chemical reasoning inherently integrates visual, textual, and symbolic modalities, yet existing benchmarks rarely capture this complexity, often relying on simple image-text pairs with limited chemical semantics. As a result, the actual ability of Multimodal Large Language Models (MLLMs) to process and integrate chemically meaningful information across modalities remains unclear. We introduce \textbf{ChemVTS-Bench}, a domain-authentic benchmark designed to systematically evaluate the Visual-Textual-Symbolic (VTS) reasoning abilities of MLLMs. ChemVTS-Bench contains diverse and challenging chemical problems spanning organic molecules, inorganic materials, and 3D crystal structures, with each task presented in three complementary input modes: (1) visual-only, (2) visual-text hybrid, and (3) SMILES-based symbolic input. This design enables fine-grained analysis of modality-dependent reasoning behaviors and cross-modal integration. To ensure rigorous and reproducible evaluation, we further develop an automated agent-based workflow that standardizes inference, verifies answers, and diagnoses failure modes. Extensive experiments on state-of-the-art MLLMs reveal that visual-only inputs remain challenging, structural chemistry is the hardest domain, and multimodal fusion mitigates but does not eliminate visual, knowledge-based, or logical errors, highlighting ChemVTS-Bench as a rigorous, domain-faithful testbed for advancing multimodal chemical reasoning. All data and code will be released to support future research.
- Abstract(参考訳): 化学的推論は本質的に視覚的、テキスト的、シンボリックなモダリティを統合するが、既存のベンチマークはこの複雑さを捉えることは滅多になく、しばしば限定的な化学意味論を持つ単純な画像テキストペアに依存している。
その結果,Multimodal Large Language Models (MLLMs) の化学的な意味のある情報をモダリティ間で処理し,統合する能力は明らかになっていない。
MLLMの視覚的テキスト・シンボリック推論能力(VTS)を体系的に評価するために設計されたドメイン認証ベンチマークである。
ChemVTS-Benchは、有機分子、無機物質、および3D結晶構造にまたがる多様かつ困難な化学問題を含み、各タスクは、(1)視覚のみ、(2)視覚テキストハイブリッド、(3)SMILESベースのシンボル入力の3つの相補的な入力モードで表される。
この設計により、モダリティに依存した推論挙動のきめ細かい解析と相互統合が可能となる。
厳密で再現可能な評価を保証するため,推論を標準化し,回答を検証し,障害モードを診断する自動エージェントベースのワークフローをさらに開発する。
最先端のMLLMに関する大規模な実験では、視覚のみの入力は依然として困難であり、構造化学は最も難しいドメインであり、マルチモーダル融合は軽減されるが、視覚的、知識的、論理的誤りを排除せず、ChemVTS-Benchは多モーダル化学推論を進めるための厳密でドメインに忠実なテストベッドとして強調している。
すべてのデータとコードは、将来の研究をサポートするためにリリースされます。
関連論文リスト
- RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature [25.978951548176706]
RxnBenchは科学的なPDFから化学反応を理解する上でMLLMを厳格に評価するためのベンチマークである。
RxnBenchは2つのタスクからなる: きめ細かい視覚知覚と機械的推論をテストするシングルフィギュアQA (SF-QA) と、108の記事から情報を合成するためのモデルに挑戦するフルドキュメントQA (FD-QA) である。
MLLMの評価は, 明確なテキストの抽出に優れたモデルではあるものの, 深層化学論理と正確な構造認識に苦慮している。
論文 参考訳(メタデータ) (2025-12-29T16:05:38Z) - Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams [20.432924845981255]
大規模言語モデル(LLM)におけるマルチモーダルな科学的推論は依然として重要な課題である
我々は,オリンピアド式化学質問のキュレートされたベンチマークを用いて,40のプロプライエタリかつオープンソースのマルチモーダルLCMを体系的に評価した。
その結果,現在のMLLMの科学的推論能力に限界があることが判明した。
論文 参考訳(メタデータ) (2025-12-17T00:49:00Z) - TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks [25.14617060799698]
この研究は、モデルアーキテクチャとタスク複雑性を共同設計することで、化学ドメインのための効率的かつ強力なビジョン言語モデル(VLM)を構築する。
4Bパラメータしか持たないTinyChemVLは、既存のモデルよりも高速な推論とトレーニング速度を示しながら、分子および反応タスクの両方で優れた性能を達成する。
論文 参考訳(メタデータ) (2025-11-09T08:37:18Z) - $\ ext{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [19.804237919102903]
QCBenchは7つの化学サブフィールドにわたる350の計算化学問題からなる定量化学指向のベンチマークである。
それぞれの問題は、ショートカットを防止し、明示的な数値推論を要求するように構成されている。
QCBenchは、計算の弱点のきめ細かい診断を可能にし、モデル固有の制限を明らかにし、将来の改善の基盤となる。
論文 参考訳(メタデータ) (2025-08-03T08:55:42Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables [48.39080455781475]
ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
論文 参考訳(メタデータ) (2025-06-13T00:45:41Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [70.66610054938052]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。