論文の概要: Reliable End-to-End Material Information Extraction from the Literature with Source-Tracked Multi-Stage Large Language Models
- arxiv url: http://arxiv.org/abs/2510.05142v1
- Date: Wed, 01 Oct 2025 22:03:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.85042
- Title: Reliable End-to-End Material Information Extraction from the Literature with Source-Tracked Multi-Stage Large Language Models
- Title(参考訳): ソーストラック型多段階大言語モデルを用いた文献からの信頼性の高いエンド・ツー・エンド材料情報抽出
- Authors: Xin Wang, Anshu Raj, Matthew Luebbe, Haiming Wen, Shuozhi Xu, Kun Lu,
- Abstract要約: 大規模言語モデルを用いた多段階情報抽出パイプラインを提案する。
実験によって報告された材料から構成、構造処理、特性にまたがる47の特徴を捉えている。
パイプラインは、反復抽出とソーストラッキングを統合して、正確性と信頼性を両立させる。
- 参考スコア(独自算出の注目度): 3.3552980412055216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-driven materials discovery requires large-scale experimental datasets, yet most of the information remains trapped in unstructured literature. Existing extraction efforts often focus on a limited set of features and have not addressed the integrated composition-processing-microstructure-property relationships essential for understanding materials behavior, thereby posing challenges for building comprehensive databases. To address this gap, we propose a multi-stage information extraction pipeline powered by large language models, which captures 47 features spanning composition, processing, microstructure, and properties exclusively from experimentally reported materials. The pipeline integrates iterative extraction with source tracking to enhance both accuracy and reliability. Evaluations at the feature level (independent attributes) and tuple level (interdependent features) yielded F1 scores around 0.96. Compared with single-pass extraction without source tracking, our approach improved F1 scores of microstructure category by 10.0% (feature level) and 13.7% (tuple level), and reduced missed materials from 49 to 13 out of 396 materials in 100 articles on precipitate-containing multi-principal element alloys (miss rate reduced from 12.4% to 3.3%). The pipeline enables scalable and efficient literature mining, producing databases with high precision, minimal omissions, and zero false positives. These datasets provide trustworthy inputs for machine learning and materials informatics, while the modular design generalizes to diverse material classes, enabling comprehensive materials information extraction.
- Abstract(参考訳): データ駆動材料発見は大規模な実験データセットを必要とするが、ほとんどの情報は構造化されていない文献に閉じ込められている。
既存の抽出作業は、しばしば限られた機能に重点を置いており、材料挙動を理解するのに不可欠な構成-プロセス-ミクロ構造-プロパティ関係の統合に対処していないため、包括的なデータベースを構築する上での課題を提起している。
このギャップに対処するために,実験によって報告された材料から構成,処理,微細構造,特性にまたがる47の特徴を抽出する,大規模言語モデルを用いた多段階情報抽出パイプラインを提案する。
パイプラインは、反復抽出とソーストラッキングを統合して、正確性と信頼性を両立させる。
特徴レベル (非依存性属性) とタプルレベル (相互依存性特徴) の評価では, F1 スコアは約 0.96 であった。
ソーストラッキングを伴わないシングルパス抽出法と比較して, マイクロ構造カテゴリのF1スコアを10.0%(機能レベル)と13.7%(構造レベル)に改善し, 析出物含有多元系合金100項目中49点から13点に減らした(ミスレートは12.4%から3.3%)。
パイプラインはスケーラブルで効率的な文献マイニングを可能にし、高精度で最小限の省略、偽陽性ゼロのデータベースを生成する。
これらのデータセットは、機械学習と材料情報学に信頼できる入力を提供し、モジュール設計は様々な材料クラスに一般化し、包括的な材料情報抽出を可能にする。
関連論文リスト
- Enhanced Multi-Tuple Extraction for Alloys: Integrating Pointer Networks and Augmented Attention [6.938202451113495]
本稿では,MatSciBERTに基づく抽出モデルとポインタとアロケーションモデルを組み合わせた新しいフレームワークを提案する。
抽出実験では,データセット間のF1スコアが0.947,0.93,0.753であった。
これらの結果は、正確で構造化された情報を提供するためのモデルの能力を強調します。
論文 参考訳(メタデータ) (2025-03-10T02:39:06Z) - DARWIN 1.5: Large Language Models as Materials Science Adapted Learners [46.7259033847682]
DARWIN 1.5は,材料科学に適したオープンソースの大規模言語モデルである。
DARWINはタスク固有の記述子の必要性を排除し、材料特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
論文 参考訳(メタデータ) (2024-12-16T16:51:27Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Foundation Model for Composite Microstructures: Reconstruction, Stiffness, and Nonlinear Behavior Prediction [0.0]
短繊維複合画像の大規模コーパスで事前学習した自己教師型視覚変換器であるMaterial Masked Autoencoder (MMAE) について述べる。
i) 制限データの微調整による均質化剛性成分の予測, (ii) MMAEと相互作用に基づく物質ネットワークを結合することで物理的に解釈可能なパラメータを推定する。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。
本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文 参考訳(メタデータ) (2024-05-16T21:15:51Z) - Accelerating materials discovery for polymer solar cells: Data-driven insights enabled by natural language processing [5.527358421206627]
本稿では, 高分子太陽電池ドナー/アクセプターペアの発見のための各種能動的学習手法のシミュレーションを行う。
提案手法は, 材料革新の15年間の加速に相当し, 発見時間を約75%短縮する可能性を示した。
論文 参考訳(メタデータ) (2024-02-29T18:54:46Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - A general-purpose material property data extraction pipeline from large
polymer corpora using Natural Language Processing [4.688077134982731]
本研究では, 自然言語処理手法を用いて, 高分子文学の抽象資料から材料特性データを自動的に抽出した。
60時間で13万件の抄録から30万件の資料を入手した。
抽出したデータは、燃料電池、スーパーキャパシタ、高分子太陽電池など様々な用途で分析された。
論文 参考訳(メタデータ) (2022-09-27T03:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。