論文の概要: MatPROV: A Provenance Graph Dataset of Material Synthesis Extracted from Scientific Literature
- arxiv url: http://arxiv.org/abs/2509.01042v1
- Date: Mon, 01 Sep 2025 00:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.514061
- Title: MatPROV: A Provenance Graph Dataset of Material Synthesis Extracted from Scientific Literature
- Title(参考訳): MatPROV:科学文献から抽出した物質合成のグラフデータセット
- Authors: Hirofumi Tsuruta, Masaya Kumagai,
- Abstract要約: 本稿では,科学文献から抽出したProV-DM準拠合成手順のデータセットであるMatPROVについて述べる。
MatPROVは、視覚的に直感的な有向グラフを通じて、材料、操作、条件の間の構造的複雑さと因果関係をキャプチャする。
- 参考スコア(独自算出の注目度): 1.171928204630468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesis procedures play a critical role in materials research, as they directly affect material properties. With data-driven approaches increasingly accelerating materials discovery, there is growing interest in extracting synthesis procedures from scientific literature as structured data. However, existing studies often rely on rigid, domain-specific schemas with predefined fields for structuring synthesis procedures or assume that synthesis procedures are linear sequences of operations, which limits their ability to capture the structural complexity of real-world procedures. To address these limitations, we adopt PROV-DM, an international standard for provenance information, which supports flexible, graph-based modeling of procedures. We present MatPROV, a dataset of PROV-DM-compliant synthesis procedures extracted from scientific literature using large language models. MatPROV captures structural complexities and causal relationships among materials, operations, and conditions through visually intuitive directed graphs. This representation enables machine-interpretable synthesis knowledge, opening opportunities for future research such as automated synthesis planning and optimization.
- Abstract(参考訳): 合成プロセスは、材料特性に直接影響するため、材料研究において重要な役割を担っている。
データ駆動型アプローチが材料発見を加速するにつれ、構造化データとして科学文献から合成手順を抽出することへの関心が高まっている。
しかし、既存の研究はしばしば、合成手順を構造化するための事前定義されたフィールドを持つ厳密なドメイン固有のスキーマや、合成手順が実世界の手順の構造的複雑さを捉える能力を制限する線形な操作列であると仮定するものである。
これらの制約に対処するため,我々は,プロシージャのフレキシブルなグラフベースモデリングをサポートする,証明情報の国際標準であるPROV-DMを採用する。
本稿では,大規模言語モデルを用いて科学文献から抽出した ProV-DM 準拠合成手順のデータセットである MatPROV を提案する。
MatPROVは、視覚的に直感的な有向グラフを通じて、材料、操作、条件の間の構造的複雑さと因果関係をキャプチャする。
この表現は機械解釈可能な合成知識を可能にし、自動合成計画や最適化といった将来の研究の機会を開く。
関連論文リスト
- ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Causal Discovery from Data Assisted by Large Language Models [50.193740129296245]
知識駆動発見のために、実験データと事前のドメイン知識を統合することが不可欠である。
本稿では、高分解能走査透過電子顕微鏡(STEM)データと大規模言語モデル(LLM)からの洞察を組み合わせることで、このアプローチを実証する。
SmドープBiFeO3(SmBFO)におけるChatGPTをドメイン固有文献に微調整することにより、構造的、化学的、分極的自由度の間の因果関係をマッピングするDAG(Directed Acyclic Graphs)の隣接行列を構築する。
論文 参考訳(メタデータ) (2025-03-18T02:14:49Z) - Towards Fully-Automated Materials Discovery via Large-Scale Synthesis Dataset and Expert-Level LLM-as-a-Judge [6.500470477634259]
本研究は,実践的でデータ駆動型資源を提供することで,材料科学コミュニティを支援することを目的としている。
オープンアクセス文献から17Kのエキスパートが検証した合成レシピの包括的データセットを収集した。
AlchemicalBenchは、合成予測に適用された大規模言語モデルの研究をサポートするエンドツーエンドフレームワークを提供する。
論文 参考訳(メタデータ) (2025-02-23T06:16:23Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from
Literature with GPT-3 [52.59930033705221]
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
論文 参考訳(メタデータ) (2023-04-26T22:21:33Z) - PcMSP: A Dataset for Scientific Action Graphs Extraction from
Polycrystalline Materials Synthesis Procedure Text [1.9573380763700712]
このデータセットは、実験段落から抽出された合成文と、エンティティの言及と文内関係を同時に含んでいる。
PcMSPコーパスの品質を保証する2段階の人間アノテーションとアノテーション間合意研究を行った。
本稿では,4つの自然言語処理タスクを紹介する。文分類,名前付きエンティティ認識,関係分類,エンティティと関係の合同抽出である。
論文 参考訳(メタデータ) (2022-10-22T09:43:54Z) - FusionRetro: Molecule Representation Fusion via In-Context Learning for
Retrosynthetic Planning [58.47265392465442]
再合成計画(Retrosynthetic Planning)は、開始物質から標的分子への完全な多段階合成経路を考案することを目的としている。
現在の戦略では、単一ステップの逆合成モデルと探索アルゴリズムの分離されたアプローチを採用している。
本稿では,文脈情報を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-30T08:44:58Z) - ULSA: Unified Language of Synthesis Actions for Representation of
Synthesis Protocols [2.436060325115753]
合成手順を記述するための最初の統一言語であるULSA(Unified Language of Synthesis Actions)を提案する。
提案手法に基づく3,040の合成手順のデータセットを作成した。
論文 参考訳(メタデータ) (2022-01-23T17:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。