論文の概要: Automated Extraction of Material Properties using LLM-based AI Agents
- arxiv url: http://arxiv.org/abs/2510.01235v1
- Date: Tue, 23 Sep 2025 18:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.737094
- Title: Automated Extraction of Material Properties using LLM-based AI Agents
- Title(参考訳): LLMを用いたAIエージェントによる材料特性の自動抽出
- Authors: Subham Ghosh, Abhishek Tewari,
- Abstract要約: 既存のデータベースは小さく、手動でキュレートするか、第一原則の結果に偏っている。
本稿では,約10,000の学術論文から熱電・構造特性を自律的に抽出するエージェント型大規模言語モデル(LLM)によるワークフローを提案する。
- 参考スコア(独自算出の注目度): 0.8422257363944295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid discovery of materials is constrained by the lack of large, machine-readable datasets that couple performance metrics with structural context. Existing databases are either small, manually curated, or biased toward first principles results, leaving experimental literature underexploited. We present an agentic, large language model (LLM)-driven workflow that autonomously extracts thermoelectric and structural-properties from about 10,000 full-text scientific articles. The pipeline integrates dynamic token allocation, zeroshot multi-agent extraction, and conditional table parsing to balance accuracy against computational cost. Benchmarking on 50 curated papers shows that GPT-4.1 achieves the highest accuracy (F1 = 0.91 for thermoelectric properties and 0.82 for structural fields), while GPT-4.1 Mini delivers nearly comparable performance (F1 = 0.89 and 0.81) at a fraction of the cost, enabling practical large scale deployment. Applying this workflow, we curated 27,822 temperature resolved property records with normalized units, spanning figure of merit (ZT), Seebeck coefficient, conductivity, resistivity, power factor, and thermal conductivity, together with structural attributes such as crystal class, space group, and doping strategy. Dataset analysis reproduces known thermoelectric trends, such as the superior performance of alloys over oxides and the advantage of p-type doping, while also surfacing broader structure-property correlations. To facilitate community access, we release an interactive web explorer with semantic filters, numeric queries, and CSV export. This study delivers the largest LLM-curated thermoelectric dataset to date, provides a reproducible and cost-profiled extraction pipeline, and establishes a foundation for scalable, data-driven materials discovery beyond thermoelectrics.
- Abstract(参考訳): 材料の迅速な発見は、パフォーマンスメトリクスと構造的コンテキストを結合する大規模で機械可読なデータセットの欠如によって制約される。
既存のデータベースは小さく、手動でキュレートするか、第一原則の結果に偏っている。
本稿では,約10,000の学術論文から熱電・構造特性を自律的に抽出するエージェント型大規模言語モデル(LLM)によるワークフローを提案する。
パイプラインは動的トークン割り当て、ゼロショットマルチエージェント抽出、条件付きテーブル解析を統合して、計算コストと精度のバランスをとる。
50のキュレートされた論文のベンチマークでは、GPT-4.1は最高精度(熱電特性はF1 = 0.91、構造体は0.82)、GPT-4.1 Miniはほぼ同等の性能(F1 = 0.89、0.81)を低コストで提供し、実用的な大規模展開を可能にした。
このワークフローを応用して、正常化単位による27,822個の温度分解特性記録を、結晶類、空間群、ドーピング戦略などの構造特性とともに、ZT、ゼーベック係数、導電率、比抵抗、パワーファクター、熱伝導率を計算した。
データセット解析は、酸化合金の優れた性能やp型ドーピングの利点など、既知の熱電的傾向を再現すると同時に、より広範な構造-物性相関も表す。
コミュニティアクセスを容易にするために、セマンティックフィルタ、数値クエリ、CSVエクスポートを備えたインタラクティブなWebエクスプローラーをリリースする。
この研究は、これまでで最大のLLM計算熱電性データセットを提供し、再現可能でコストの高い抽出パイプラインを提供し、熱電性以外のスケーラブルでデータ駆動の材料発見の基礎を確立している。
関連論文リスト
- Efficient dataset construction using active learning and uncertainty-aware neural networks for plasma turbulent transport surrogate models [0.0]
本研究は,不確実性を考慮したアーキテクチャを用いてモデル生成のための効率的なデータセットを構築するための実証実験である。
この戦略はトカマク核融合プラズマ中のプラズマ乱流輸送問題、特にQuaLiKiz準静電ジャイロキネティック乱流輸送符号に再び適用された。
45回のアクティブな学習イテレーションで、102ドルの小さな初期トレーニングセットから104ドルの最終セットに移行し、結果のモデルは0.8のF_1ドルの分類パフォーマンス、独立したテストセットで0.75ドルの回帰パフォーマンスに達した。
論文 参考訳(メタデータ) (2025-07-21T18:15:12Z) - A machine learning platform for development of low flammability polymers [42.758516311179534]
可燃性指数 (FI) とコーンカロリー測定結果(最大放火率, 点火時間, 総煙放出量, 発火速度など)は, 高分子の火災安全性を評価する上で重要な要因である。
本研究では,これらの可燃性指標を予測するための機械学習(ML)技術の利用について検討する。
論文 参考訳(メタデータ) (2025-03-31T20:50:29Z) - Causal Discovery from Data Assisted by Large Language Models [50.193740129296245]
知識駆動発見のために、実験データと事前のドメイン知識を統合することが不可欠である。
本稿では、高分解能走査透過電子顕微鏡(STEM)データと大規模言語モデル(LLM)からの洞察を組み合わせることで、このアプローチを実証する。
SmドープBiFeO3(SmBFO)におけるChatGPTをドメイン固有文献に微調整することにより、構造的、化学的、分極的自由度の間の因果関係をマッピングするDAG(Directed Acyclic Graphs)の隣接行列を構築する。
論文 参考訳(メタデータ) (2025-03-18T02:14:49Z) - Siamese Foundation Models for Crystal Structure Prediction [70.63218101004398]
結晶構造予測(CSP)は、組成から安定な結晶構造を生成することを目的としている。
CSPは比較的未発見の領域である。
CSPに特化して設計されたシームズ基礎モデルを提案する。
論文 参考訳(メタデータ) (2025-03-13T15:44:16Z) - Hierarchy-Boosted Funnel Learning for Identifying Semiconductors with Ultralow Lattice Thermal Conductivity [2.186828191026978]
超低格子熱伝導率半導体(Kappa_mathrmL$)の同定に成功している階層型ファンネル学習(HiBoFL)フレームワークを提案する。
数十万のプールから教師なし学習を対象とする数百の教材をトレーニングすることにより、超低値のKappa_mathrmL$の効率的かつ解釈可能な教師付き予測を実現する。
論文 参考訳(メタデータ) (2025-01-12T11:03:09Z) - Transfer Learning for Deep Learning-based Prediction of Lattice Thermal Conductivity [0.0]
深層学習モデル(ParAIsite)の精度と一般化性に及ぼす伝達学習の影響について検討する。
格子熱伝導率(LTC)の低品質近似の大規模なデータセット上で、初めて微調整を行うと、さらに改善が得られた。
有望な結果は、低熱伝導率材料を探索する大きなデータベースを探索する能力を高めるための道を開く。
論文 参考訳(メタデータ) (2024-11-27T11:57:58Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - GLaD: Synergizing Molecular Graphs and Language Descriptors for Enhanced Power Conversion Efficiency Prediction in Organic Photovoltaic Devices [43.511428925893675]
本稿では,分子グラフと言語記述子の相乗化という,有機太陽光発電(OPV)デバイスにおける電力変換効率(PCE)の予測手法を提案する。
我々は、500対のPVドナーとアクセプター分子からなるデータセットを、対応するPCE値とともに収集し、予測モデルのトレーニングデータとして利用する。
GLaDはPCEの正確な予測を実現し、効率を向上した新しいPV分子の合成を容易にする。
論文 参考訳(メタデータ) (2024-05-23T06:02:07Z) - Machine-Learning Prediction of the Computed Band Gaps of Double
Perovskite Materials [3.2798940914359056]
機能性材料の電子構造の予測は新しい装置の工学に不可欠である。
本研究では,2重ペロブスカイト材料の電子構造を機械学習で予測する。
この結果は,期待できる機能材料を迅速にスクリーニングするために,機械学習による回帰の可能性を実証するという意味で重要である。
論文 参考訳(メタデータ) (2023-01-04T08:19:18Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。