論文の概要: MaterialFigBENCH: benchmark dataset with figures for evaluating college-level materials science problem-solving abilities of multimodal large language models
- arxiv url: http://arxiv.org/abs/2603.11414v1
- Date: Thu, 12 Mar 2026 01:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.799921
- Title: MaterialFigBENCH: benchmark dataset with figures for evaluating college-level materials science problem-solving abilities of multimodal large language models
- Title(参考訳): MaterialFigBENCH:マルチモーダル大言語モデルの大学レベルの教材科学問題解決能力を評価するためのベンチマークデータセット
- Authors: Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato,
- Abstract要約: 本稿では,大学レベルの物質科学問題を解くためのマルチモーダル大規模言語モデル(LLM)の能力を評価するためのベンチマークデータセットを提案する。
MaterialFigBenchは、位相図、応力-ひずみ曲線、アレニウスプロット、回折パターン、微構造図といった図形が正しい解を得るには不可欠である問題に焦点を当てている。
- 参考スコア(独自算出の注目度): 9.321900260858351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MaterialFigBench, a benchmark dataset designed to evaluate the ability of multimodal large language models (LLMs) to solve university-level materials science problems that require accurate interpretation of figures. Unlike existing benchmarks that primarily rely on textual representations, MaterialFigBench focuses on problems in which figures such as phase diagrams, stress-strain curves, Arrhenius plots, diffraction patterns, and microstructural schematics are indispensable for deriving correct answers. The dataset consists of 137 free-response problems adapted from standard materials science textbooks, covering a broad range of topics including crystal structures, mechanical properties, diffusion, phase diagrams, phase transformations, and electronic properties of materials. To address unavoidable ambiguity in reading numerical values from images, expert-defined answer ranges are provided where appropriate. We evaluate several state-of-the-art multimodal LLMs, including ChatGPT and GPT models accessed via OpenAI APIs, and analyze their performance across problem categories and model versions. The results reveal that, although overall accuracy improves with model updates, current LLMs still struggle with genuine visual understanding and quantitative interpretation of materials science figures. In many cases, correct answers are obtained by relying on memorized domain knowledge rather than by reading the provided images. MaterialFigBench highlights persistent weaknesses in visual reasoning, numerical precision, and significant-digit handling, while also identifying problem types where performance has improved. This benchmark provides a systematic and domain-specific foundation for advancing multimodal reasoning capabilities in materials science and for guiding the development of future LLMs with stronger figure-based understanding.
- Abstract(参考訳): 数値の正確な解釈を必要とする大学レベルの物質科学問題を解くために,LLM(Multimodal large language model)の能力を評価するために設計されたベンチマークデータセットであるMaterialFigBenchを提案する。
テキスト表現に主に依存する既存のベンチマークとは異なり、MaterialFigBenchは位相図、応力-ひずみ曲線、アレニウスプロット、回折パターン、微構造図などの数字が正しい答えを導き出すのに欠かせない問題に焦点を当てている。
このデータセットは、標準材料科学教科書から適応した137の自由応答問題で構成され、結晶構造、機械的特性、拡散、相図、相変換、材料の電子的性質など幅広いトピックをカバーしている。
画像から数値を読み取る際の避けられない曖昧さに対処するため、専門家定義の回答範囲を適宜設ける。
我々は,OpenAI API経由でアクセスされるChatGPTやGPTモデルなど,最先端のマルチモーダルLLMを評価し,問題カテゴリやモデルバージョン間での性能を解析する。
その結果、モデル更新によって全体的な精度が向上するが、現在のLLMは真の視覚的理解と、材料科学の数字の定量的解釈に苦戦していることが明らかとなった。
多くの場合、提供された画像を読むよりも、記憶されたドメイン知識に頼って正しい回答が得られる。
MaterialFigBenchは、視覚的推論、数値精度、重要なデジタルハンドリングにおける永続的な弱点を強調し、パフォーマンスが改善された問題タイプを特定する。
このベンチマークは、材料科学におけるマルチモーダル推論能力の進歩と、より強力な図形に基づく理解で将来のLLMの開発を導くための体系的でドメイン固有の基盤を提供する。
関連論文リスト
- SoM-1K: A Thousand-Problem Benchmark Dataset for Strength of Materials [16.756001896133757]
材料強度の問題に関する基礎モデルを評価するための,最初の大規模マルチモーダルベンチマークデータセットであるSoM-1Kを紹介する。
この研究は、エンジニアリングAIのための厳格なベンチマークを確立し、より堅牢なマルチモーダル推論機能を開発するための重要なニーズを強調している。
論文 参考訳(メタデータ) (2025-09-25T12:28:22Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - Foundational Large Language Models for Materials Research [22.77591279242839]
大規模言語モデル(LLM)は、自動分析と予測を通じて材料研究を加速する機会を提供する。
本稿では,LLaMAモデルの継続事前学習を通じて発達した材料科学の基礎モデルであるLLaMatについて述べる。
LLaMatは、一般的な言語能力を維持しつつ、材料固有のNLPと構造化情報抽出に優れることを示した。
論文 参考訳(メタデータ) (2024-12-12T18:46:38Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Less can be more for predicting properties with large language models [5.561723952524538]
本稿では,座標分類データの座標情報から学習できる大規模言語モデルの限界について報告する。
LLMはカテゴリパターンに長けながら座標情報の取得に一貫して失敗していることがわかった。
本研究は, 構造効果に支配される材料特性予測タスクにおける即時的な実践的意味を示唆するものである。
論文 参考訳(メタデータ) (2024-06-25T05:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。