論文の概要: RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature
- arxiv url: http://arxiv.org/abs/2512.23565v1
- Date: Mon, 29 Dec 2025 16:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.569744
- Title: RxnBench: A Multimodal Benchmark for Evaluating Large Language Models on Chemical Reaction Understanding from Scientific Literature
- Title(参考訳): RxnBench: 科学文献からの化学反応理解における大規模言語モデル評価のためのマルチモーダルベンチマーク
- Authors: Hanzheng Li, Xi Fang, Yixuan Li, Chaozheng Huang, Junjie Wang, Xi Wang, Hongzhe Bai, Bojun Hao, Shenyu Lin, Huiqi Liang, Linfeng Zhang, Guolin Ke,
- Abstract要約: RxnBenchは科学的なPDFから化学反応を理解する上でMLLMを厳格に評価するためのベンチマークである。
RxnBenchは2つのタスクからなる: きめ細かい視覚知覚と機械的推論をテストするシングルフィギュアQA (SF-QA) と、108の記事から情報を合成するためのモデルに挑戦するフルドキュメントQA (FD-QA) である。
MLLMの評価は, 明確なテキストの抽出に優れたモデルではあるものの, 深層化学論理と正確な構造認識に苦慮している。
- 参考スコア(独自算出の注目度): 25.978951548176706
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The integration of Multimodal Large Language Models (MLLMs) into chemistry promises to revolutionize scientific discovery, yet their ability to comprehend the dense, graphical language of reactions within authentic literature remains underexplored. Here, we introduce RxnBench, a multi-tiered benchmark designed to rigorously evaluate MLLMs on chemical reaction understanding from scientific PDFs. RxnBench comprises two tasks: Single-Figure QA (SF-QA), which tests fine-grained visual perception and mechanistic reasoning using 1,525 questions derived from 305 curated reaction schemes, and Full-Document QA (FD-QA), which challenges models to synthesize information from 108 articles, requiring cross-modal integration of text, schemes, and tables. Our evaluation of MLLMs reveals a critical capability gap: while models excel at extracting explicit text, they struggle with deep chemical logic and precise structural recognition. Notably, models with inference-time reasoning significantly outperform standard architectures, yet none achieve 50\% accuracy on FD-QA. These findings underscore the urgent need for domain-specific visual encoders and stronger reasoning engines to advance autonomous AI chemists.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の化学への統合は、科学的な発見に革命をもたらすことを約束するが、真正文学における高密度でグラフィカルな反応の言語を理解する能力は、まだ未熟である。
本稿ではRxnBenchについて紹介する。RxnBenchは科学的なPDFから化学反応を理解する上でMLLMを厳格に評価する多層ベンチマークである。
RxnBenchは、305のキュレートされた反応スキームから導かれる1,525の質問を用いて、きめ細かい視覚的知覚と機械的推論をテストするSingle-Figure QA (SF-QA) と、108の論文から情報を合成するためにモデルに挑戦するFull-Document QA (FD-QA) の2つのタスクで構成されている。
MLLMの評価は, 明確なテキストの抽出に優れたモデルではあるものの, 深層化学論理と正確な構造認識に苦慮している。
特に、推論時間推論のモデルは標準アーキテクチャよりも大幅に優れているが、FD-QAの精度は50%も向上しない。
これらの発見は、自律的なAI化学者を前進させるために、ドメイン固有のビジュアルエンコーダと強力な推論エンジンが緊急に必要であることを示している。
関連論文リスト
- Evaluating Large Language Models on Multimodal Chemistry Olympiad Exams [20.432924845981255]
大規模言語モデル(LLM)におけるマルチモーダルな科学的推論は依然として重要な課題である
我々は,オリンピアド式化学質問のキュレートされたベンチマークを用いて,40のプロプライエタリかつオープンソースのマルチモーダルLCMを体系的に評価した。
その結果,現在のMLLMの科学的推論能力に限界があることが判明した。
論文 参考訳(メタデータ) (2025-12-17T00:49:00Z) - ChemVTS-Bench: Evaluating Visual-Textual-Symbolic Reasoning of Multimodal Large Language Models in Chemistry [14.083820970280668]
ChemVTS-Benchは、マルチモーダル大言語モデル(MLLM)の視覚的テキスト・シンボリック(VTS)推論能力を評価するために設計されたドメイン認証ベンチマークである。
ChemVTS-Benchは、有機分子、無機物質、および3D結晶構造にまたがる多様で困難な化学問題を含んでいる。
我々は、推論を標準化し、回答を検証し、障害モードを診断する自動エージェントベースのワークフローを開発する。
論文 参考訳(メタデータ) (2025-11-22T04:24:24Z) - oMeBench: Towards Robust Benchmarking of LLMs in Organic Mechanism Elucidation and Reasoning [44.36582860924775]
有機化学における有機機構推論のための,最初の大規模で専門家によるベンチマークであるoMeBenchを紹介する。
また,ステップレベルの論理と化学的類似性を組み合わせた動的評価フレームワークoMeSを提案する。
論文 参考訳(メタデータ) (2025-10-09T03:13:31Z) - QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [19.804237919102903]
QCBenchは7つの化学サブフィールドにわたる350の計算化学問題からなる定量化学指向のベンチマークである。
それぞれの問題は、ショートカットを防止し、明示的な数値推論を要求するように構成されている。
QCBenchは、計算の弱点のきめ細かい診断を可能にし、モデル固有の制限を明らかにし、将来の改善の基盤となる。
論文 参考訳(メタデータ) (2025-08-03T08:55:42Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables [48.39080455781475]
ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
論文 参考訳(メタデータ) (2025-06-13T00:45:41Z) - MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research [57.61445960384384]
MicroVQA は、生物学の専門家が様々な顕微鏡のモードでキュレートした 1,042 の多重選択質問 (MCQ) から構成される。
最先端のMLLMのベンチマークでは、ピーク性能は53%であった。
チェーン・オブ・シント・レスポンスのエキスパート分析では、知覚エラーが最も頻繁であり、続いて知識エラー、そして過一般化エラーが続く。
論文 参考訳(メタデータ) (2025-03-17T17:33:10Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。