論文の概要: Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables
- arxiv url: http://arxiv.org/abs/2506.11375v1
- Date: Fri, 13 Jun 2025 00:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.613233
- Title: Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables
- Title(参考訳): ケミカルテーブル上での認識と理解に関するマルチモーダルLLMのベンチマーク
- Authors: Yitong Zhou, Mingyue Cheng, Qingyang Mao, Yucong Luo, Qi Liu, Yupeng Li, Xiaohan Zhang, Deguang Liu, Xin Li, Enhong Chen,
- Abstract要約: ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
- 参考スコア(独自算出の注目度): 48.39080455781475
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chemical tables encode complex experimental knowledge through symbolic expressions, structured variables, and embedded molecular graphics. Existing benchmarks largely overlook this multimodal and domain-specific complexity, limiting the ability of multimodal large language models to support scientific understanding in chemistry. In this work, we introduce ChemTable, a large-scale benchmark of real-world chemical tables curated from the experimental sections of literature. ChemTable includes expert-annotated cell polygons, logical layouts, and domain-specific labels, including reagents, catalysts, yields, and graphical components and supports two core tasks: (1) Table Recognition, covering structure parsing and content extraction; and (2) Table Understanding, encompassing both descriptive and reasoning-oriented question answering grounded in table structure and domain semantics. We evaluated a range of representative multimodal models, including both open-source and closed-source models, on ChemTable and reported a series of findings with practical and conceptual insights. Although models show reasonable performance on basic layout parsing, they exhibit substantial limitations on both descriptive and inferential QA tasks compared to human performance, and we observe significant performance gaps between open-source and closed-source models across multiple dimensions. These results underscore the challenges of chemistry-aware table understanding and position ChemTable as a rigorous and realistic benchmark for advancing scientific reasoning.
- Abstract(参考訳): 化学表は、記号表現、構造化変数、組込み分子グラフィックスを通じて複雑な実験知識を符号化する。
既存のベンチマークは、このマルチモーダルとドメイン固有の複雑さを概ね見落としており、化学における科学的理解を支援するために、マルチモーダルな大規模言語モデルの能力を制限している。
そこで本研究では,ChemTableについて紹介する。ChemTableは,実験論文から得られた実世界の化学表の大規模ベンチマークである。
ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィックコンポーネントを含むドメイン固有のラベルが含まれており、(1)テーブル認識、構造解析とコンテンツ抽出、(2)テーブル理解(Table Understanding)という2つのコアタスクをサポートする。
我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
モデルは基本的なレイアウト解析において妥当な性能を示すが、人間の性能と比較して記述的タスクと推論的タスクの両方にかなりの制限があり、複数次元にわたるオープンソースモデルとクローズドソースモデルの間の大きなパフォーマンスギャップを観察する。
これらの結果は、化学を意識したテーブル理解の課題を浮き彫りにして、ChemTableを科学的推論を進めるための厳密で現実的なベンチマークとして位置づけている。
関連論文リスト
- ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area [50.15254966969718]
textbfChemVLMは、化学応用のためのオープンソースの化学マルチモーダル大規模言語モデルである。
ChemVLMは、テキストと視覚の化学情報の両方を理解する能力を高めるために、慎重にキュレートされたバイリンガルデータセットで訓練されている。
我々はChemVLMを、様々なタスクにおいて、オープンソースおよびプロプライエタリな多モーダルな大規模言語モデルに対してベンチマークする。
論文 参考訳(メタデータ) (2024-08-14T01:16:40Z) - A Large Encoder-Decoder Family of Foundation Models For Chemical Language [1.1073864511426255]
本稿では,PubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基礎モデルを提案する。
複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。
論文 参考訳(メタデータ) (2024-07-24T20:30:39Z) - DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles [25.907266860321727]
材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-07-03T17:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。