論文の概要: MatSKRAFT: A framework for large-scale materials knowledge extraction from scientific tables
- arxiv url: http://arxiv.org/abs/2509.10448v1
- Date: Fri, 12 Sep 2025 17:55:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.193064
- Title: MatSKRAFT: A framework for large-scale materials knowledge extraction from scientific tables
- Title(参考訳): MatSKRAFT:科学表から大規模資料知識抽出のためのフレームワーク
- Authors: Kausik Hira, Mohd Zaki, Mausam, N. M. Anoop Krishnan,
- Abstract要約: MatSKRAFTは、図表データから素材科学の知識を自動的に抽出し、統合するフレームワークである。
MatSKRAFT は最先端の大規模言語モデルよりも優れており、プロパティ抽出の F1 スコアは 88.68 、合成抽出の 71.35 である。
- 参考スコア(独自算出の注目度): 19.837905352477453
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scientific progress increasingly depends on synthesizing knowledge across vast literature, yet most experimental data remains trapped in semi-structured formats that resist systematic extraction and analysis. Here, we present MatSKRAFT, a computational framework that automatically extracts and integrates materials science knowledge from tabular data at unprecedented scale. Our approach transforms tables into graph-based representations processed by constraint-driven GNNs that encode scientific principles directly into model architecture. MatSKRAFT significantly outperforms state-of-the-art large language models, achieving F1 scores of 88.68 for property extraction and 71.35 for composition extraction, while processing data $19$-$496\times$ faster than them (compared to the slowest and the fastest models, respectively) with modest hardware requirements. Applied to nearly 69,000 tables from more than 47,000 research publications, we construct a comprehensive database containing over 535,000 entries, including 104,000 compositions that expand coverage beyond major existing databases, pending manual validation. This systematic approach reveals previously overlooked materials with distinct property combinations and enables data-driven discovery of composition-property relationships forming the cornerstone of materials and scientific discovery.
- Abstract(参考訳): 科学的進歩は、膨大な文献にわたる知識の合成にますます依存するが、ほとんどの実験データは、体系的な抽出と分析に抵抗する半構造化形式に閉じ込められている。
本稿では,従来のグラフデータから材料科学知識を自動的に抽出し,統合する計算フレームワークであるMatSKRAFTについて述べる。
提案手法は,テーブルを制約駆動型GNNによって処理されたグラフベースの表現に変換し,科学原理を直接モデルアーキテクチャにエンコードする。
MatSKRAFTは最先端の大規模言語モデルよりも優れており、F1スコアは88.68、合成抽出は71.35、データ処理は19$-496\times(それぞれ最も遅いモデルと速いモデルと比較して)より高速である。
47,000以上の研究出版物から約69,000のテーブルに適用し、535,000以上のエントリを含む包括的なデータベースを構築します。
この体系的なアプローチは、以前見過ごされた材料を異なった特性の組み合わせで明らかにし、材料と科学的な発見の基盤を形成する合成-プロパティ関係のデータの駆動的な発見を可能にする。
関連論文リスト
- LeMat-Synth: a multi-modal toolbox to curate broad synthesis procedure databases from scientific literature [60.879220305044726]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を用いて合成手順と性能データを自動抽出・整理するマルチモーダルツールボックスを提案する。
LeMat-Synth (v 1.0):35種類の合成法と16種類の材料クラスにまたがる合成手順を含むデータセット。
我々は,新しいコーパスと合成ドメインへのコミュニティ主導の拡張をサポートするために設計された,モジュール形式のオープンソースライブラリをリリースする。
論文 参考訳(メタデータ) (2025-10-28T17:58:18Z) - ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature [0.2447206672789868]
ComProScannerは、化学組成や性質の抽出、検証、分類、可視化を容易にする、自律的なマルチエージェントプラットフォームである。
オープンソースとプロプライエタリの両方のモデルを含む10の異なるLCMに対して,100のジャーナル記事を用いたフレームワークの評価を行った。
DeepSeek-V3-0324は全てのモデルで0.82の精度で性能を上げた。
論文 参考訳(メタデータ) (2025-10-23T09:01:44Z) - "DIVE" into Hydrogen Storage Materials Discovery with AI Agents [8.774584882332526]
データ駆動人工知能(AI)アプローチは、新しい素材の発見を変革している。
本稿では,視覚表現の記述的解釈(Descriptive Interpretation of Visual Expression, DIVE)について述べる。
4000の出版物から3万点を超えるキュレートされたデータベース上に構築し、これまで報告されていない水素貯蔵成分を2分で識別できる高速な逆設計ワークフローを構築した。
論文 参考訳(メタデータ) (2025-08-18T14:30:18Z) - zERExtractor:An Automated Platform for Enzyme-Catalyzed Reaction Data Extraction from Scientific Literature [12.109637682144125]
zERExtractorは、酵素触媒による反応と活性データを科学文献から総合的に抽出する自動化プラットフォームである。
我々のパイプラインは、ドメイン適応型ディープラーニング、高度なOCR、セマンティックエンティティ認識、およびプロンプト駆動LLMモジュールを組み合わせる。
270のP450関連酵素学論文から1,000以上の注釈付きテーブルと5,000の生物学的フィールドからなる大規模なベンチマークデータセットを作成した。
論文 参考訳(メタデータ) (2025-07-30T07:21:32Z) - A Materials Map Integrating Experimental and Computational Data via Graph-Based Machine Learning for Enhanced Materials Discovery [5.06756291053173]
材料情報学(MI)は材料開発と発見を著しく加速すると予想されている。
MIで使用されるデータは、計算と実験の両方の研究から導かれる。
本研究では,材料特性と構造的特徴の関係を可視化する材料マップを構築するために得られたデータセットを用いた。
論文 参考訳(メタデータ) (2025-03-10T14:31:34Z) - BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。
われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。
BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文 参考訳(メタデータ) (2025-01-13T09:58:03Z) - DARWIN 1.5: Large Language Models as Materials Science Adapted Learners [46.7259033847682]
DARWIN 1.5は,材料科学に適したオープンソースの大規模言語モデルである。
DARWINはタスク固有の記述子の必要性を排除し、材料特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
論文 参考訳(メタデータ) (2024-12-16T16:51:27Z) - Foundation Model for Composite Microstructures: Reconstruction, Stiffness, and Nonlinear Behavior Prediction [0.0]
短繊維複合画像の大規模コーパスで事前学習した自己教師型視覚変換器であるMaterial Masked Autoencoder (MMAE) について述べる。
i) 制限データの微調整による均質化剛性成分の予測, (ii) MMAEと相互作用に基づく物質ネットワークを結合することで物理的に解釈可能なパラメータを推定する。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Why Tabular Foundation Models Should Be a Research Priority [65.75744962286538]
タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。
私たちは現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発を始める時が来たと信じています。
論文 参考訳(メタデータ) (2024-05-02T10:05:16Z) - Extracting Structured Seed-Mediated Gold Nanorod Growth Procedures from
Literature with GPT-3 [52.59930033705221]
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
1,137枚の紙から抽出した11,644個のエンティティのデータセットを作成した。
論文 参考訳(メタデータ) (2023-04-26T22:21:33Z) - DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles [25.907266860321727]
材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-07-03T17:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。