論文の概要: MatQnA: A Benchmark Dataset for Multi-modal Large Language Models in Materials Characterization and Analysis
- arxiv url: http://arxiv.org/abs/2509.11335v1
- Date: Sun, 14 Sep 2025 16:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.035523
- Title: MatQnA: A Benchmark Dataset for Multi-modal Large Language Models in Materials Characterization and Analysis
- Title(参考訳): MatQnA: 材料評価と分析のためのマルチモーダル大言語モデルのベンチマークデータセット
- Authors: Yonghao Weng, Liqiang Gao, Linwu Zhu, Jian Huang,
- Abstract要約: MatQnAは、材料キャラクタリゼーション技術に特化して設計された最初のマルチモーダルベンチマークデータセットである。
我々は,LLMとHuman-in-the-loopバリデーションを組み合わせたハイブリッドアプローチを用いて,高品質な質問応答ペアを構築する。
予備的な評価結果は、最も先進的なマルチモーダルAIモデルは、すでに客観的な質問に対して90%近い精度を達成していることを示している。
- 参考スコア(独自算出の注目度): 2.184404734602291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language models (LLMs) have achieved remarkable breakthroughs in general domains such as programming and writing, and have demonstrated strong potential in various scientific research scenarios. However, the capabilities of AI models in the highly specialized field of materials characterization and analysis have not yet been systematically or sufficiently validated. To address this gap, we present MatQnA, the first multi-modal benchmark dataset specifically designed for material characterization techniques. MatQnA includes ten mainstream characterization methods, such as X-ray Photoelectron Spectroscopy (XPS), X-ray Diffraction (XRD), Scanning Electron Microscopy (SEM), Transmission Electron Microscopy (TEM), etc. We employ a hybrid approach combining LLMs with human-in-the-loop validation to construct high-quality question-answer pairs, integrating both multiple-choice and subjective questions. Our preliminary evaluation results show that the most advanced multi-modal AI models (e.g., GPT-4.1, Claude 4, Gemini 2.5, and Doubao Vision Pro 32K) have already achieved nearly 90% accuracy on objective questions in materials data interpretation and analysis tasks, demonstrating strong potential for applications in materials characterization and analysis. The MatQnA dataset is publicly available at https://huggingface.co/datasets/richardhzgg/matQnA.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) はプログラミングや書記などの一般分野において画期的な進歩を遂げており,様々な科学的研究シナリオにおいて大きな可能性を示している。
しかし、高度に専門化された材料評価・分析分野におけるAIモデルの能力は、まだ体系的、あるいは十分に検証されていない。
このギャップに対処するため、物質的特徴付け技術に特化して設計された最初のマルチモーダルベンチマークデータセットであるMateQnAを提案する。
MatQnAには、X線光電子分光法(XPS)、X線回折法(XRD)、走査型電子顕微鏡法(SEM)、透過型電子顕微鏡法(TEM)など、主要な10種類の評価方法が含まれている。
我々は,LLMとHuman-in-the-loopバリデーションを組み合わせたハイブリッドアプローチを用いて,高品質な質問応答ペアを構築し,複数選択と主観的質問を統合した。
我々の予備的な評価結果は、材料データ解釈および分析タスクにおいて、最も先進的なマルチモーダルAIモデル(例えば、GPT-4.1、Claude 4、Gemini 2.5、Doubao Vision Pro 32K)が、すでに90%近い精度を達成しており、材料特性解析および分析における応用の可能性を示していることを示している。
MatQnAデータセットはhttps://huggingface.co/datasets/richardhzgg/matQnAで公開されている。
関連論文リスト
- UniEM-3M: A Universal Electron Micrograph Dataset for Microstructural Segmentation and Generation [19.67541048907923]
インスタンスレベルの理解のための,最初の大規模かつマルチモーダルなEMデータセットUniEM-3Mを紹介する。
5,091個の高解像度EM、約300万個のインスタンスセグメンテーションラベル、画像レベルの属性不整合テキスト記述で構成されている。
コレクション全体に基づいてトレーニングされたテキスト間拡散モデルは、強力なデータ拡張ツールと、完全なデータ分散のためのプロキシの両方として機能する。
論文 参考訳(メタデータ) (2025-08-22T09:20:00Z) - Zero-shot Autonomous Microscopy for Scalable and Intelligent Characterization of 2D Materials [41.856704526703595]
従来、原子スケールの材料の特徴付けには、数ヶ月から数年の専門的な訓練を必要とする。
このボトルネックは、大規模なトレーニングデータセットを必要とせずに研究目的を理解できる完全自律的な実験システムへの需要を加速させる。
本稿では,2次元材料の完全自律的ゼロショットキャラクタリゼーションを実現するため,基礎モデルを統合するエンドツーエンドフレームワークであるATOMICを提案する。
論文 参考訳(メタデータ) (2025-04-14T14:49:45Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-03T03:59:03Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - RethinkingTMSC: An Empirical Study for Target-Oriented Multimodal
Sentiment Classification [70.9087014537896]
目的指向型マルチモーダル感性分類(TMSC)は,学者の間でも注目されている。
この問題の原因を明らかにするために,データセットの広範な実験的評価と詳細な分析を行う。
論文 参考訳(メタデータ) (2023-10-14T14:52:37Z) - Clinical Reading Comprehension: A Thorough Analysis of the emrQA Dataset [29.866478682797513]
臨床ノートに基づく質問応答(QA)のための最初の大規模データセットである emrQA の詳細な分析を行う。
i) emrQA の回答は不完全であり,(ii) emrQA の質問はドメイン知識を使わずに答えられることが多い。
論文 参考訳(メタデータ) (2020-05-01T19:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。