論文の概要: From Papers to Property Tables: A Priority-Based LLM Workflow for Materials Data Extraction
- arxiv url: http://arxiv.org/abs/2604.07584v1
- Date: Wed, 08 Apr 2026 20:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.554768
- Title: From Papers to Property Tables: A Priority-Based LLM Workflow for Materials Data Extraction
- Title(参考訳): 論文からプロパティテーブルへ:素材データ抽出のための優先順位に基づくLCMワークフロー
- Authors: Koushik Rameshbabu, Jing Luo, Ali Shargh, Khalid A. El-Awady, Jaafar A. El-Awady,
- Abstract要約: 本稿では, 構造的, ショットレベルの衝撃物理実験記録を自動的に抽出し, 再構成するための, 即時駆動型階層的ワークフローを提案する。
パイプラインは1ショット当たり37の実験的なフィールドをターゲットにし、3段階の優先順位戦略を適用した。
ワークフローの精度は94.93%(T1)、92.04%(T2)、83.49%(T3)、全体的な重み付け精度は94.69%であった。
- 参考スコア(独自算出の注目度): 1.0901176137697233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific data are widely dispersed across research articles and are often reported inconsistently across text, tables, and figures, making manual data extraction and aggregation slow and error-prone. We present a prompt-driven, hierarchical workflow that uses a large language model (LLM) to automatically extract and reconstruct structured, shot-level shock-physics experimental records by integrating information distributed across text, tables, figures, and physics-based derivations from full-text published research articles, using alloy spall strength as a representative case study. The pipeline targeted 37 experimentally relevant fields per shot and applied a three-level priority strategy: (T1) direct extraction from text/tables, (T2) physics-based derivation using verified governing relations, and (T3) digitization from figures when necessary. Extracted values were normalized to canonical units, tagged by priority for traceability, and validated with physics-based consistency and plausibility checks. Evaluated on a benchmark of 30 published research articles comprising 11,967 evaluated data points, the workflow achieved high overall accuracy, with priority-wise accuracies of 94.93% (T1), 92.04% (T2), and 83.49% (T3), and an overall weighted accuracy of 94.69%. Cross-model testing further indicated strong agreement for text/table and equation-derived fields, with lower agreement for figure-based extraction. Implementation through an API interface demonstrated the scalability of the approach, achieving consistent extraction performance and, in a subset of test cases, matching or exceeding chat-based accuracy. This workflow demonstrates a practical approach for converting unstructured technical literature into traceable, analysis-ready datasets without task-specific fine-tuning, enabling scalable database construction in materials science.
- Abstract(参考訳): 科学データは研究論文に広く分散しており、しばしばテキスト、表、数字に矛盾なく報告され、手動によるデータの抽出と集約が遅く、エラーが発生しやすい。
本稿では, 大規模言語モデル(LLM)を用いて, テキスト, 表, 図形, 物理に分散した情報を, フルテキストで公開された研究論文から抽出し, 合金スペル強度を代表事例として用いた, 構造化された, ショットレベルの衝撃物理学実験記録を自動的に抽出し, 再構成する, プロンプト駆動型階層ワークフローを提案する。
T1) テキスト/テーブルからの直接抽出,(T2) 物理に基づく決定関係を用いた導出,(T3) 必要なときの数値のデジタル化,である。
抽出された値は標準単位に正規化され、トレーサビリティーの優先度でタグ付けされ、物理ベースの一貫性と妥当性チェックによって検証された。
11,967点の評価データからなる30の論文のベンチマークで評価され、ワークフロー全体の精度は94.93%(T1)、92.04%(T2)、83.49%(T3)、全体的な重み付け精度は94.69%であった。
クロスモデルテストはさらに、テキスト/テーブルおよび方程式由来のフィールドに対する強い一致を示し、図形ベース抽出に対する低い一致を示した。
APIインターフェースによる実装は、一貫した抽出性能を実現し、テストケースのサブセットにおいて、チャットベースの正確性にマッチまたは超越したアプローチのスケーラビリティを実証した。
このワークフローは、非構造化技術文献をタスク固有の微調整なしでトレース可能な分析可能なデータセットに変換するための実践的なアプローチを示し、材料科学におけるスケーラブルなデータベース構築を可能にする。
関連論文リスト
- LLM-based Schema-Guided Extraction and Validation of Missing-Person Intelligence from Heterogeneous Data Sources [0.7734726150561088]
行方不明者や子どもの安全に関する調査は、構造化フォーム、掲示板スタイルのポスター、物語ウェブプロファイルなど、異種ケース文書に依存している。
レイアウト、用語、データ品質の変化は、急激なトリアージ、大規模分析、探索計画を妨げる。
本稿では、AIによる解析および正規化パイプラインであるGuardian Packを紹介し、マルチソース調査文書を統一されたスキーマ準拠の表現に変換する。
論文 参考訳(メタデータ) (2026-04-08T01:35:56Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - JT-DA: Enhancing Data Analysis with Tool-Integrated Table Reasoning Large Language Models [58.408398005993455]
JT-DA-8Bは、様々な現実世界のシナリオにまたがる複雑なテーブル推論タスクのために設計された、特殊な大規模言語モデルである。
我々は、29のパブリックテーブルQAデータセットと300万のテーブルを集約することにより、34の明確に定義されたテーブル推論タスクを備えた包括的で多様なトレーニングコーパスを構築した。
実験結果から,JT-DA-8Bは様々なテーブル推論タスクにおいて高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-07T14:29:23Z) - Relational Transformer: Toward Zero-Shot Foundation Models for Relational Data [38.656987194921854]
Transformer (RT) アーキテクチャは、様々なリレーショナルデータベース上で事前トレーニングすることができる。
RTは強いゼロショットを破り、バイナリ分類タスクにおいて、完全に教師されたAUROCの93%を平均化する。
論文 参考訳(メタデータ) (2025-10-07T18:51:51Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。
提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文 参考訳(メタデータ) (2025-07-28T21:20:44Z) - Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。
このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。
本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文 参考訳(メタデータ) (2024-10-08T17:36:48Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - Application of Transformers based methods in Electronic Medical Records:
A Systematic Literature Review [77.34726150561087]
本研究は,異なるNLPタスクにおける電子カルテ(EMR)のトランスフォーマーに基づく手法を用いて,最先端技術に関する体系的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-04-05T22:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。