論文の概要: Large language model-enabled automated data extraction for concrete materials informatics
- arxiv url: http://arxiv.org/abs/2604.22938v1
- Date: Fri, 24 Apr 2026 18:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.060504
- Title: Large language model-enabled automated data extraction for concrete materials informatics
- Title(参考訳): 大規模言語モデルを用いたコンクリート材料情報のための自動データ抽出
- Authors: Zhanzhao Li, Kengran Yang, Qiyao He, Kai Gong,
- Abstract要約: 本研究では,非構造化科学文献からの材料データの自動抽出と構造化のための一般化可能な大規模言語モデル (LLM) を用いたパイプラインを提案する。
1時間以内に、27,000以上の出版物から100以上の属性で9000近い高品質なレコードを抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The promise of data-driven materials discovery remains constrained by the scarcity of large, high-quality, and accessible experimental datasets. Here, we introduce a generalizable large language model (LLM)-powered pipeline for automated extraction and structuring of materials data from unstructured scientific literature, using concrete materials as a representative and particularly challenging example. The pipeline exhibits robust performance across a broad range of LLMs and achieves an $F_1$ score of up to 0.97 for diverse composition--process--property attributes. Within one hour, it extracts nearly 9,000 high-quality records with over 100 attributes screened from more than 27,000 publications, enabling the construction of the largest open laboratory database for blended cement concrete. Machine learning analyses underscore the importance of large, diverse, and information-rich datasets for enhancing both in-distribution accuracy and out-of-distribution generalization to unseen materials. The proposed pipeline is readily adaptable to other materials domains and accelerates the development of scalable data infrastructures for materials informatics.
- Abstract(参考訳): データ駆動材料発見の約束は、大規模で高品質でアクセス可能な実験データセットの不足によって、依然として制約されている。
本稿では,非構造化科学文献から材料データを自動的に抽出・構造化する汎用型大規模言語モデル (LLM) を用いたパイプラインを提案する。
パイプラインは広い範囲のLLMで堅牢な性能を示し、様々な合成-プロセス-プロパティ属性に対して最大0.97ドルのF_1$スコアを達成している。
1時間以内に、27,000以上の出版物から100以上の属性がスクリーニングされた9000近い高品質な記録を抽出し、ブレンドセメントコンクリートのための最大の実験室データベースの構築を可能にした。
機械学習分析は、分布内精度と分布外一般化の両方を未確認材料に拡張するために、大きく、多様で、情報に富んだデータセットの重要性を強調している。
提案するパイプラインは他の材料ドメインにも容易に適応でき、材料情報のためのスケーラブルなデータインフラストラクチャの開発を加速する。
関連論文リスト
- OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive [50.468138755368805]
オピオイド危機は公衆衛生にとって重要な瞬間である。
UCSF-JHU Opioid Industry Documents Archive(OIDA)に公開されているデータと文書
本稿では,文書属性に応じて元のデータセットを整理することで,この問題に対処する。
論文 参考訳(メタデータ) (2025-11-13T03:27:32Z) - Reliable End-to-End Material Information Extraction from the Literature with Source-Tracked Multi-Stage Large Language Models [3.3552980412055216]
大規模言語モデルを用いた多段階情報抽出パイプラインを提案する。
実験によって報告された材料から構成、構造処理、特性にまたがる47の特徴を捉えている。
パイプラインは、反復抽出とソーストラッキングを統合して、正確性と信頼性を両立させる。
論文 参考訳(メタデータ) (2025-10-01T22:03:28Z) - MatSKRAFT: A framework for large-scale materials knowledge extraction from scientific tables [19.837905352477453]
MatSKRAFTは、図表データから素材科学の知識を自動的に抽出し、統合するフレームワークである。
MatSKRAFT は最先端の大規模言語モデルよりも優れており、プロパティ抽出の F1 スコアは 88.68 、合成抽出の 71.35 である。
論文 参考訳(メタデータ) (2025-09-12T17:55:11Z) - Materials Generation in the Era of Artificial Intelligence: A Comprehensive Survey [54.40267149907223]
材料は現代社会の基礎であり、エネルギー、エレクトロニクス、医療、交通、インフラの進歩を支えている。
高度に調整された特性を持つ新しい材料を発見・設計する能力は、世界的課題の解決に不可欠である。
データ駆動生成モデルは、事前定義された特性要件を満たす新しい材料を直接作成することによって、材料設計のための強力なツールを提供する。
論文 参考訳(メタデータ) (2025-05-22T08:33:21Z) - DARWIN 1.5: Large Language Models as Materials Science Adapted Learners [46.7259033847682]
DARWIN 1.5は,材料科学に適したオープンソースの大規模言語モデルである。
DARWINはタスク固有の記述子の必要性を排除し、材料特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
論文 参考訳(メタデータ) (2024-12-16T16:51:27Z) - Foundation Model for Composite Microstructures: Reconstruction, Stiffness, and Nonlinear Behavior Prediction [0.0]
短繊維複合画像の大規模コーパスで事前学習した自己教師型視覚変換器であるMaterial Masked Autoencoder (MMAE) について述べる。
i) 制限データの微調整による均質化剛性成分の予測, (ii) MMAEと相互作用に基づく物質ネットワークを結合することで物理的に解釈可能なパラメータを推定する。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。
我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。
実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - A general-purpose material property data extraction pipeline from large
polymer corpora using Natural Language Processing [4.688077134982731]
本研究では, 自然言語処理手法を用いて, 高分子文学の抽象資料から材料特性データを自動的に抽出した。
60時間で13万件の抄録から30万件の資料を入手した。
抽出したデータは、燃料電池、スーパーキャパシタ、高分子太陽電池など様々な用途で分析された。
論文 参考訳(メタデータ) (2022-09-27T03:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。