論文の概要: MATRIX: A Multimodal Benchmark and Post-Training Framework for Materials Science
- arxiv url: http://arxiv.org/abs/2602.00376v1
- Date: Fri, 30 Jan 2026 22:55:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.143313
- Title: MATRIX: A Multimodal Benchmark and Post-Training Framework for Materials Science
- Title(参考訳): MATRIX: 材料科学のためのマルチモーダルベンチマークとポストトレーニングフレームワーク
- Authors: Delia McGrath, Curtis Chong, Rohil Kulkarni, Gerbrand Ceder, Adeesh Kolluru,
- Abstract要約: 我々は,基礎理論,研究レベルの推論,実実験成果物の解釈を評価する材料科学推論のベンチマークであるMATRIXを紹介する。
構造化材料科学テキストだけでのポストトレーニングと、ペア実験画像を含むポストトレーニングの比較を行った。
比較的少量のマルチモーダルデータを使用するにもかかわらず、視覚監督は実験的な解釈を10-25%改善し、テキストのみの科学的推論タスクで5-16%の利益を得る。
- 参考スコア(独自算出の注目度): 2.7705403377941473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific reasoning in materials science requires integrating multimodal experimental evidence with underlying physical theory. Existing benchmarks make it difficult to assess whether incorporating visual experimental data during post-training improves mechanism-grounded explanation reasoning beyond text-only supervision. We introduce MATRIX, a multimodal benchmark for materials science reasoning that evaluates foundational theory, research-level reasoning, and the interpretation of real experimental artifacts across multiple characterization modalities. Using MATRIX as a controlled diagnostic, we isolate the effect of visual grounding by comparing post-training on structured materials science text alone with post-training that incorporates paired experimental images. Despite using relatively small amounts of multimodal data, visual supervision improves experimental interpretation by 10-25% and yields 5-16% gains on text-only scientific reasoning tasks. Our results demonstrate that these improvements rely on correct image-text alignment during post-training, highlighting cross-modal representational transfer. We also observe consistent improvements on ScienceQA and PubMedQA, demonstrating that the benefits of structured multimodal post-training extend beyond materials science. The MATRIX dataset is available at https://huggingface.co/datasets/radical-ai/MATRIX and the model at https://huggingface.co/radical-ai/MATRIX-PT.
- Abstract(参考訳): 物質科学における科学的推論は、基礎となる物理理論とマルチモーダルな実験的証拠を統合する必要がある。
既存のベンチマークでは、学習後の視覚実験データの導入が、テキストのみの監督を超えて、メカニズムに基づく説明推論を改善するかどうかを評価するのが困難である。
基礎理論,研究レベルの推論,および実実験成果物の解釈を複数の特徴量で評価する,材料科学推論のためのマルチモーダルベンチマークであるMATRIXを紹介する。
また,MATRIXを制御診断として用い,2つの実験画像が組み合わさったポストトレーニングと,構造化材料科学テキストのみに対するポストトレーニングとを比較し,視覚的グラウンドニングの効果を分離した。
比較的少量のマルチモーダルデータを使用するにもかかわらず、視覚監督は実験的な解釈を10-25%改善し、テキストのみの科学的推論タスクで5-16%の利益を得る。
以上の結果から,これらの改善は訓練後の正しい画像テキストアライメントに依存していることが明らかとなった。
また,ScienceQAとPubMedQAに関する一貫した改善も観察し,構造化されたマルチモーダルポストトレーニングの利点が物質科学を超えたことを実証した。
MATRIXデータセットはhttps://huggingface.co/datasets/radical-ai/MATRIXで、モデルはhttps://huggingface.co/radical-ai/MATRIX-PTで入手できる。
関連論文リスト
- DONUT: Physics-aware Machine Learning for Real-time X-ray Nanodiffraction Analysis [5.889405057118457]
本稿では,ナノビーム回折データの迅速かつ自動解析を目的とした物理対応ニューラルネットワークDONUTを紹介する。
微分可能な幾何回折モデルをアーキテクチャに直接組み込むことで、DONUTは結晶のひずみと配向をリアルタイムで予測することを学ぶ。
我々はDONUTが従来のフィッティング法よりも200倍以上の効率でデータ中の全ての特徴を正確に抽出できることを実験的に実証した。
論文 参考訳(メタデータ) (2025-07-18T16:10:39Z) - XxaCT-NN: Structure Agnostic Multimodal Learning for Materials Science [0.27185251060695437]
元素組成とX線回折(XRD)から直接学習するスケーラブルなフレームワークを提案する。
アーキテクチャは、モダリティ固有のエンコーダとクロスアテンション融合モジュールを統合し、500万サンプルのアレクサンドリアデータセットでトレーニングする。
本研究は, 材料科学の基礎モデルとして, 無構造, 実験的な基礎モデルへの道のりを定めている。
論文 参考訳(メタデータ) (2025-06-27T21:45:56Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - UniMat: Unifying Materials Embeddings through Multi-modal Learning [0.0]
材料科学における最も重要なモダリティを統一する上で,多モーダル学習(アライメントと融合)の手法を評価する。
構造グラフのモダリティはXRDパターンと整合することで向上できることを示す。
また、XRDパターンやコンポジションなどの実験的に利用できるデータフォーマットの整列と融合により、より堅牢な関節埋め込みが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-11-13T14:55:08Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Multimodal Deep Learning for Scientific Imaging Interpretation [0.0]
本研究では,SEM(Scanning Electron Microscopy)画像と人間のような相互作用を言語的にエミュレートし,評価するための新しい手法を提案する。
本稿では,ピアレビュー記事から収集したテキストデータとビジュアルデータの両方から洞察を抽出する。
我々のモデル (GlassLLaVA) は, 正確な解釈, 重要な特徴の同定, 未確認のSEM画像の欠陥の検出に優れる。
論文 参考訳(メタデータ) (2023-09-21T20:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。