論文の概要: MatSKRAFT: A framework for large-scale materials knowledge extraction from scientific tables
- arxiv url: http://arxiv.org/abs/2509.10448v1
- Date: Fri, 12 Sep 2025 17:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.193064
- Title: MatSKRAFT: A framework for large-scale materials knowledge extraction from scientific tables
- Title(参考訳): MatSKRAFT:科学表から大規模資料知識抽出のためのフレームワーク
- Authors: Kausik Hira, Mohd Zaki, Mausam, N. M. Anoop Krishnan,
- Abstract要約: MatSKRAFTは、図表データから素材科学の知識を自動的に抽出し、統合するフレームワークである。
MatSKRAFT は最先端の大規模言語モデルよりも優れており、プロパティ抽出の F1 スコアは 88.68 、合成抽出の 71.35 である。
- 参考スコア(独自算出の注目度): 19.837905352477453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scientific progress increasingly depends on synthesizing knowledge across vast literature, yet most experimental data remains trapped in semi-structured formats that resist systematic extraction and analysis. Here, we present MatSKRAFT, a computational framework that automatically extracts and integrates materials science knowledge from tabular data at unprecedented scale. Our approach transforms tables into graph-based representations processed by constraint-driven GNNs that encode scientific principles directly into model architecture. MatSKRAFT significantly outperforms state-of-the-art large language models, achieving F1 scores of 88.68 for property extraction and 71.35 for composition extraction, while processing data $19$-$496\times$ faster than them (compared to the slowest and the fastest models, respectively) with modest hardware requirements. Applied to nearly 69,000 tables from more than 47,000 research publications, we construct a comprehensive database containing over 535,000 entries, including 104,000 compositions that expand coverage beyond major existing databases, pending manual validation. This systematic approach reveals previously overlooked materials with distinct property combinations and enables data-driven discovery of composition-property relationships forming the cornerstone of materials and scientific discovery.
- Abstract(参考訳): 科学的進歩は、膨大な文献にわたる知識の合成にますます依存するが、ほとんどの実験データは、体系的な抽出と分析に抵抗する半構造化形式に閉じ込められている。
本稿では,従来のグラフデータから材料科学知識を自動的に抽出し,統合する計算フレームワークであるMatSKRAFTについて述べる。
提案手法は,テーブルを制約駆動型GNNによって処理されたグラフベースの表現に変換し,科学原理を直接モデルアーキテクチャにエンコードする。
MatSKRAFTは最先端の大規模言語モデルよりも優れており、F1スコアは88.68、合成抽出は71.35、データ処理は19$-496\times(それぞれ最も遅いモデルと速いモデルと比較して)より高速である。
47,000以上の研究出版物から約69,000のテーブルに適用し、535,000以上のエントリを含む包括的なデータベースを構築します。
この体系的なアプローチは、以前見過ごされた材料を異なった特性の組み合わせで明らかにし、材料と科学的な発見の基盤を形成する合成-プロパティ関係のデータの駆動的な発見を可能にする。
関連論文リスト
- zERExtractor:An Automated Platform for Enzyme-Catalyzed Reaction Data Extraction from Scientific Literature [12.109637682144125]
zERExtractorは、酵素触媒による反応と活性データを科学文献から総合的に抽出する自動化プラットフォームである。
我々のパイプラインは、ドメイン適応型ディープラーニング、高度なOCR、セマンティックエンティティ認識、およびプロンプト駆動LLMモジュールを組み合わせる。
270のP450関連酵素学論文から1,000以上の注釈付きテーブルと5,000の生物学的フィールドからなる大規模なベンチマークデータセットを作成した。
論文 参考訳(メタデータ) (2025-07-30T07:21:32Z) - A Materials Map Integrating Experimental and Computational Data via Graph-Based Machine Learning for Enhanced Materials Discovery [5.06756291053173]
材料情報学(MI)は材料開発と発見を著しく加速すると予想されている。
MIで使用されるデータは、計算と実験の両方の研究から導かれる。
本研究では,材料特性と構造的特徴の関係を可視化する材料マップを構築するために得られたデータセットを用いた。
論文 参考訳(メタデータ) (2025-03-10T14:31:34Z) - DARWIN 1.5: Large Language Models as Materials Science Adapted Learners [46.7259033847682]
DARWIN 1.5は,材料科学に適したオープンソースの大規模言語モデルである。
DARWINはタスク固有の記述子の必要性を排除し、材料特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
論文 参考訳(メタデータ) (2024-12-16T16:51:27Z) - Foundation Model for Composite Microstructures: Reconstruction, Stiffness, and Nonlinear Behavior Prediction [0.0]
短繊維複合画像の大規模コーパスで事前学習した自己教師型視覚変換器であるMaterial Masked Autoencoder (MMAE) について述べる。
i) 制限データの微調整による均質化剛性成分の予測, (ii) MMAEと相互作用に基づく物質ネットワークを結合することで物理的に解釈可能なパラメータを推定する。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles [25.907266860321727]
材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-07-03T17:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。