論文の概要: Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables
- arxiv url: http://arxiv.org/abs/2506.11375v1
- Date: Fri, 13 Jun 2025 00:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.613233
- Title: Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables
- Title(参考訳): ケミカルテーブル上での認識と理解に関するマルチモーダルLLMのベンチマーク
- Authors: Yitong Zhou, Mingyue Cheng, Qingyang Mao, Yucong Luo, Qi Liu, Yupeng Li, Xiaohan Zhang, Deguang Liu, Xin Li, Enhong Chen,
- Abstract要約: ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
- 参考スコア(独自算出の注目度): 48.39080455781475
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chemical tables encode complex experimental knowledge through symbolic expressions, structured variables, and embedded molecular graphics. Existing benchmarks largely overlook this multimodal and domain-specific complexity, limiting the ability of multimodal large language models to support scientific understanding in chemistry. In this work, we introduce ChemTable, a large-scale benchmark of real-world chemical tables curated from the experimental sections of literature. ChemTable includes expert-annotated cell polygons, logical layouts, and domain-specific labels, including reagents, catalysts, yields, and graphical components and supports two core tasks: (1) Table Recognition, covering structure parsing and content extraction; and (2) Table Understanding, encompassing both descriptive and reasoning-oriented question answering grounded in table structure and domain semantics. We evaluated a range of representative multimodal models, including both open-source and closed-source models, on ChemTable and reported a series of findings with practical and conceptual insights. Although models show reasonable performance on basic layout parsing, they exhibit substantial limitations on both descriptive and inferential QA tasks compared to human performance, and we observe significant performance gaps between open-source and closed-source models across multiple dimensions. These results underscore the challenges of chemistry-aware table understanding and position ChemTable as a rigorous and realistic benchmark for advancing scientific reasoning.
- Abstract(参考訳): 化学表は、記号表現、構造化変数、組込み分子グラフィックスを通じて複雑な実験知識を符号化する。
既存のベンチマークは、このマルチモーダルとドメイン固有の複雑さを概ね見落としており、化学における科学的理解を支援するために、マルチモーダルな大規模言語モデルの能力を制限している。
そこで本研究では,ChemTableについて紹介する。ChemTableは,実験論文から得られた実世界の化学表の大規模ベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィックコンポーネントを含むドメイン固有のラベルが含まれており、(1)テーブル認識、構造解析とコンテンツ抽出、(2)テーブル理解(Table Understanding)という2つのコアタスクをサポートする。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
モデルは基本的なレイアウト解析において妥当な性能を示すが、人間の性能と比較して記述的タスクと推論的タスクの両方にかなりの制限があり、複数次元にわたるオープンソースモデルとクローズドソースモデルの間の大きなパフォーマンスギャップを観察する。
これらの結果は、化学を意識したテーブル理解の課題を浮き彫りにして、ChemTableを科学的推論を進めるための厳密で現実的なベンチマークとして位置づけている。
関連論文リスト
- QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [12.18966912295507]
QCBenchは、7つの化学サブフィールドにわたる350の計算化学問題からなるベンチマークである。
それぞれの問題は、現実世界の化学垂直場に根ざした純粋計算に焦点を当てている。
19のLLMの評価は、タスクの複雑さを増大させるとともに、一貫したパフォーマンス劣化を示す。
論文 参考訳(メタデータ) (2025-08-03T08:55:42Z) - A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature [8.306442315850878]
我々は,堅牢かつ自動化された化学情報抽出のためのマルチモーダル大規模言語モデル (MLLM) ベースのマルチエージェントシステムを開発した。
文献から得られた高精細なマルチモーダル化学反応画像のベンチマークデータセットにおいて,本システムは80.8%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-07-27T11:16:57Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - TableMoE: Neuro-Symbolic Routing for Structured Expert Reasoning in Multimodal Table Understanding [3.404552731440374]
TableMoEは、マルチモーダルテーブルデータに対する堅牢で構造化された推論のために特別に設計された、ニューロシンボリックなMixture-of-Connector-Experts (MoCE)アーキテクチャである。
TableMoEは革新的なNeuro-Symbolic Routing機構を備えており、潜在意味トークンの役割を予測し、テーブル要素を専門の専門家に動的にルーティングする。
評価のために、実世界のマルチモーダル劣化と構造的複雑さの下でのストレステストモデルに特化して設計された、挑戦的なWildStructベンチマーク4つをキュレートし、リリースする。
論文 参考訳(メタデータ) (2025-06-26T15:41:34Z) - ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - A Large Encoder-Decoder Family of Foundation Models For Chemical Language [1.1073864511426255]
本稿では,PubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基礎モデルを提案する。
複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。
論文 参考訳(メタデータ) (2024-07-24T20:30:39Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles [25.907266860321727]
材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-07-03T17:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。