論文の概要: LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature
- arxiv url: http://arxiv.org/abs/2510.26824v1
- Date: Tue, 28 Oct 2025 17:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.850585
- Title: LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature
- Title(参考訳): LeMat-Synth:科学文献から幅広い合成手順データベースをキュレートするマルチモーダルツールボックス
- Authors: Magdalena Lederbauer, Siddharth Betala, Xiyao Li, Ayush Jain, Amine Sehaba, Georgia Channing, Grégoire Germain, Anamaria Leonescu, Faris Flaifil, Alfonso Amayuelas, Alexandre Nozadze, Stefan P. Schmid, Mohd Zaki, Sudheesh Kumar Ethirajan, Elton Pan, Mathilde Franckel, Alexandre Duval, N. M. Anoop Krishnan, Samuel P. Gleason,
- Abstract要約: 本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いて合成手順と性能データを自動抽出・整理するマルチモーダルツールボックスを提案する。
LeMat-Synth (v 1.0):35種類の合成法と16種類の材料クラスにまたがる合成手順を含むデータセット。
我々は,新しいコーパスと合成ドメインへのコミュニティ主導の拡張をサポートするために設計された,モジュール形式のオープンソースライブラリをリリースする。
- 参考スコア(独自算出の注目度): 60.879220305044726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of synthesis procedures remains a fundamental challenge in materials discovery, with procedural knowledge scattered across decades of scientific literature in unstructured formats that are challenging for systematic analysis. In this paper, we propose a multi-modal toolbox that employs large language models (LLMs) and vision language models (VLMs) to automatically extract and organize synthesis procedures and performance data from materials science publications, covering text and figures. We curated 81k open-access papers, yielding LeMat-Synth (v 1.0): a dataset containing synthesis procedures spanning 35 synthesis methods and 16 material classes, structured according to an ontology specific to materials science. The extraction quality is rigorously evaluated on a subset of 2.5k synthesis procedures through a combination of expert annotations and a scalable LLM-as-a-judge framework. Beyond the dataset, we release a modular, open-source software library designed to support community-driven extension to new corpora and synthesis domains. Altogether, this work provides an extensible infrastructure to transform unstructured literature into machine-readable information. This lays the groundwork for predictive modeling of synthesis procedures as well as modeling synthesis--structure--property relationships.
- Abstract(参考訳): 合成手順の開発は材料発見の基本的な課題であり、手続き的な知識は数十年にわたる科学文献に散らばって、体系的な分析に困難である非構造化形式に散らばっている。
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を併用したマルチモーダルツールボックスを提案する。
材料科学に特有のオントロジーに基づいて構成された,35種類の合成法と16種類の材料クラスにまたがる合成手順を含むデータセットであるLeMat-Synth (v 1.0) を作成した。
専門家アノテーションとスケーラブルなLCM-as-a-judgeフレームワークを組み合わせることで、2.5k合成手順のサブセットで抽出品質を厳格に評価する。
データセット以外にも、新しいコーパスと合成ドメインへのコミュニティ主導の拡張をサポートするために設計された、モジュラーでオープンソースなソフトウェアライブラリをリリースしています。
この研究は、構造化されていない文献を機械可読情報に変換するための拡張可能なインフラを提供する。
このことは、合成手順の予測モデリングと、合成-構造-プロパティ関係のモデリングの基盤となる。
関連論文リスト
- ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature [0.2447206672789868]
ComProScannerは、化学組成や性質の抽出、検証、分類、可視化を容易にする、自律的なマルチエージェントプラットフォームである。
オープンソースとプロプライエタリの両方のモデルを含む10の異なるLCMに対して,100のジャーナル記事を用いたフレームワークの評価を行った。
DeepSeek-V3-0324は全てのモデルで0.82の精度で性能を上げた。
論文 参考訳(メタデータ) (2025-10-23T09:01:44Z) - MatPROV: A Provenance Graph Dataset of Material Synthesis Extracted from Scientific Literature [1.171928204630468]
本稿では,科学文献から抽出したProV-DM準拠合成手順のデータセットであるMatPROVについて述べる。
MatPROVは、視覚的に直感的な有向グラフを通じて、材料、操作、条件の間の構造的複雑さと因果関係をキャプチャする。
論文 参考訳(メタデータ) (2025-09-01T00:47:27Z) - Towards Fully-Automated Materials Discovery via Large-Scale Synthesis Dataset and Expert-Level LLM-as-a-Judge [6.500470477634259]
本研究は,実践的でデータ駆動型資源を提供することで,材料科学コミュニティを支援することを目的としている。
オープンアクセス文献から17Kのエキスパートが検証した合成レシピの包括的データセットを収集した。
AlchemicalBenchは、合成予測に適用された大規模言語モデルの研究をサポートするエンドツーエンドフレームワークを提供する。
論文 参考訳(メタデータ) (2025-02-23T06:16:23Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from
Literature with GPT-3 [52.59930033705221]
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
論文 参考訳(メタデータ) (2023-04-26T22:21:33Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。