論文の概要: OmniMatBench: A Human-Calibrated Multimodal Reasoning Benchmark Across 19 Materials Science Subfields
- arxiv url: http://arxiv.org/abs/2605.29833v1
- Date: Thu, 28 May 2026 12:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.225616
- Title: OmniMatBench: A Human-Calibrated Multimodal Reasoning Benchmark Across 19 Materials Science Subfields
- Title(参考訳): OmniMatBench:19の材料科学サブフィールドを対象とした人間キャリブレーションによるマルチモーダル推論ベンチマーク
- Authors: Wanhao Liu, Jiaqing Xie, Qian Tan, Weida Wang, Jue Wang, Ran Sun, Zhuo Yang, Wanli Ouyang, Lei Bai, Tianfan Fu, Lu Chen, Xin Chen, Yuqiang Li,
- Abstract要約: 材料科学のためのマルチモーダル推論ベンチマークであるOmniMatBenchを紹介する。
我々は13のオープンソースおよびクローズドソースMLLMを評価し、最良のモデルが0.372の総合スコアを達成することを発見した。
- 参考スコア(独自算出の注目度): 61.92908843275242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multimodal language models play an increasingly important role in scientific research, materials science offers a critical testbed due to its interdisciplinary, multimodal, and application-driven nature. However, existing materials benchmarks mainly focus on property prediction, knowledge QA, or characterization understanding, leaving the broader reasoning process from materials knowledge to application underexplored. To fill this gap, we present OmniMatBench, a human-calibrated multimodal reasoning benchmark for materials science. OmniMatBench contains 3,171 expert-curated QA and calculation problems across 19 materials-science subfields, spanning fundamental materials knowledge, structural and engineering materials, materials processing and manufacturing, and functional and applied materials. We evaluate 13 open-source and closed-source MLLMs and find that the best model achieves only a 0.372 overall score, revealing a substantial gap in current materials-science reasoning. Further analysis shows strong variation across subfields, fixed reasoning heuristics, uneven materials knowledge, and limited high-level knowledge application under formula-, retrieval-, and code-assisted settings. OmniMatBench provides crucial insights into the capabilities and limitations of current MLLMs and establishes a foundation for reliable AI assistants in materials-science research.
- Abstract(参考訳): マルチモーダル言語モデルは科学研究においてますます重要な役割を担っているため、材料科学は学際的、多モーダル的、アプリケーション駆動的な性質のために重要なテストベッドを提供する。
しかし、既存の材料ベンチマークは、主に資産予測、知識QA、または特性理解に重点を置いており、材料知識から未調査のアプリケーションへの幅広い推論プロセスを残している。
このギャップを埋めるために、材料科学のための人間校正マルチモーダル推論ベンチマークであるOmniMatBenchを紹介する。
OmniMatBenchには3,171人の専門家によるQAと19の材料科学サブフィールドの計算問題が含まれており、基本的な材料知識、構造と工学の材料、材料加工と製造、機能的および応用的な材料を網羅している。
我々は13のオープンソースおよびクローズドソースMLLMを評価し、最高のモデルが0.372の総合スコアしか達成せず、現在の物質科学推論において大きなギャップがあることを明らかにする。
さらなる分析は、式、検索、コードアシスト設定の下で、サブフィールド、固定的推論ヒューリスティック、不均一な材料知識、限られた高レベルの知識応用を示す。
OmniMatBenchは、現在のMLLMの機能と限界に関する重要な洞察を提供し、材料科学研究における信頼性の高いAIアシスタントの基礎を確立する。
関連論文リスト
- MatSciBench: Benchmarking the Reasoning Ability of Large Language Models in Materials Science [28.11660982198711]
MatSciBenchは1,340の問題からなる総合的な大学レベルのベンチマークである。
MatSciBenchは、物質科学の質問を6つの主要分野と31の亜分野に分類する構造的できめ細かな分類を特徴としている。
先行モデルの評価によると、最高のパフォーマンスモデルであるGemini-2.5-Proでさえ、大学レベルの材料科学の質問に対して80%未満の精度で達成されている。
論文 参考訳(メタデータ) (2025-10-14T05:59:40Z) - Materials Generation in the Era of Artificial Intelligence: A Comprehensive Survey [54.40267149907223]
材料は現代社会の基礎であり、エネルギー、エレクトロニクス、医療、交通、インフラの進歩を支えている。
高度に調整された特性を持つ新しい材料を発見・設計する能力は、世界的課題の解決に不可欠である。
データ駆動生成モデルは、事前定義された特性要件を満たす新しい材料を直接作成することによって、材料設計のための強力なツールを提供する。
論文 参考訳(メタデータ) (2025-05-22T08:33:21Z) - MatTools: Benchmarking Large Language Models for Materials Science Tools [5.876786336423598]
MatToolsは2つの補完的なコンポーネントの上に構築されている。材料シミュレーションツールのQAベンチマークと、現実世界のツール使用ベンチマークだ。
QAベンチマークは69, QA225ペアで構成され、LLMが材料科学ツールを理解する能力を評価する。
実世界のベンチマークには49のタスク(138のサブタスク)が含まれており、材料プロパティの計算に機能的なPythonコードを生成する必要がある。
論文 参考訳(メタデータ) (2025-05-16T04:43:05Z) - Foundation Model for Composite Microstructures: Reconstruction, Stiffness, and Nonlinear Behavior Prediction [0.0]
短繊維複合画像の大規模コーパスで事前学習した自己教師型視覚変換器であるMaterial Masked Autoencoder (MMAE) について述べる。
i) 制限データの微調整による均質化剛性成分の予測, (ii) MMAEと相互作用に基づく物質ネットワークを結合することで物理的に解釈可能なパラメータを推定する。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - Multimodal Foundation Models for Material Property Prediction and Discovery [7.167520424757711]
材料の基礎モデルの自己教師型マルチモーダルトレーニングを可能にするマルチモーダル・ラーニング・フォー・マテリアル(MultiMat)を紹介した。
複数の軸上のMaterial Projectデータベースからのデータを用いて,MultiMatの可能性を示す。
論文 参考訳(メタデータ) (2023-11-30T18:35:29Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。