論文の概要: Language Models Enable Data-Augmented Synthesis Planning for Inorganic Materials
- arxiv url: http://arxiv.org/abs/2506.12557v1
- Date: Sat, 14 Jun 2025 15:55:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.483213
- Title: Language Models Enable Data-Augmented Synthesis Planning for Inorganic Materials
- Title(参考訳): 無機材料のデータ拡張合成計画を可能にする言語モデル
- Authors: Thorben Prein, Elton Pan, Janik Jehkul, Steffen Weinmann, Elsa A. Olivetti, Jennifer L. M. Rupp,
- Abstract要約: GPT-4.1、Gemini 2.0 Flash、Llama 4 Maverickなどの市販モデルでは、トップ1前の予測精度は最大53.8%に達する。
言語モデルを用いて28,548個の合成反応のレシピを生成し,文献的な例と組み合わせてトランスフォーマーベースのモデルであるSyntMTEを事前訓練する。
- 参考スコア(独自算出の注目度): 1.6163129903911515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inorganic synthesis planning currently relies primarily on heuristic approaches or machine-learning models trained on limited datasets, which constrains its generality. We demonstrate that language models, without task-specific fine-tuning, can recall synthesis conditions. Off-the-shelf models, such as GPT-4.1, Gemini 2.0 Flash and Llama 4 Maverick, achieve a Top-1 precursor-prediction accuracy of up to 53.8 % and a Top-5 performance of 66.1 % on a held-out set of 1,000 reactions. They also predict calcination and sintering temperatures with mean absolute errors below 126 {\deg}C, matching specialized regression methods. Ensembling these language models further enhances predictive accuracy and reduces inference cost per prediction by up to 70 %. We subsequently employ language models to generate 28,548 synthetic reaction recipes, which we combine with literature-mined examples to pretrain a transformer-based model, SyntMTE. After fine-tuning on the combined dataset, SyntMTE reduces mean-absolute error in sintering temperature prediction to 73 {\deg}C and in calcination temperature to 98 {\deg}C. This strategy improves models by up to 8.7 % compared with baselines trained exclusively on experimental data. Finally, in a case study on Li7La3Zr2O12 solid-state electrolytes, we demonstrate that SyntMTE reproduces the experimentally observed dopant-dependent sintering trends. Our hybrid workflow enables scalable, data-efficient inorganic synthesis planning.
- Abstract(参考訳): 無機合成計画は現在、主にヒューリスティックなアプローチや限られたデータセットで訓練された機械学習モデルに依存している。
タスク固有の微調整なしに、言語モデルが合成条件をリコールできることを実証する。
GPT-4.1、Gemini 2.0 Flash、Llama 4 Maverickといった市販のモデルでは、最大53.8%、Top-5のパフォーマンスは66.1%となる。
また、116 {\deg}C以下の平均絶対誤差で焼成および焼結温度を予測し、特殊回帰法と一致する。
これらの言語モデルを組み込むことで、予測精度をさらに向上し、予測あたりの推論コストを最大70%削減する。
次に、言語モデルを用いて28,548の合成反応レシピを生成し、文献的な例と組み合わせて、トランスフォーマーベースのモデルであるSyntMTEを事前訓練する。
組み合わせたデータセットを微調整した後、SyntMTEは焼結温度予測における平均絶対誤差を73 {\deg}Cに、焼成温度を98 {\deg}Cに下げる。
この戦略は、実験データにのみ訓練されたベースラインと比較して、モデルを最大8.7%改善する。
最後に、Li7La3Zr2O12固体電解質のケーススタディにおいて、SyntMTEが実験的に観察されたドーパント依存性焼結傾向を再現することを示した。
当社のハイブリッドワークフローは、スケーラブルでデータ効率のよい無機合成計画を可能にします。
関連論文リスト
- How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。
半合成データを得るために,人為的データに対するトークン編集を提案する。
論文 参考訳(メタデータ) (2024-12-19T09:43:39Z) - Beyond Model Collapse: Scaling Up with Synthesized Data Requires Verification [11.6055501181235]
モデル崩壊防止のための合成データに対する検証手法について検討する。
検証器は、たとえ不完全なものであっても、モデル崩壊を防ぐために実際に活用できることが示される。
論文 参考訳(メタデータ) (2024-06-11T17:46:16Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - G-MATT: Single-step Retrosynthesis Prediction using Molecular Grammar
Tree Transformer [0.0]
本稿では、強力なデータ駆動モデルと事前のドメイン知識を組み合わせた化学対応の逆合成予測フレームワークを提案する。
提案するフレームワークであるG-MATT(G-MATT)は,ベースラインレトロシンセシスモデルと比較して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2023-05-04T21:04:19Z) - Differentially Private Diffusion Models Generate Useful Synthetic Images [53.94025967603649]
近年の研究では、いくつかの拡散モデルの出力がトレーニングデータのプライバシを保持していないことが報告されている。
CIFAR-10 と Camelyon17 のSOTA 結果を得た。
以上の結果から,差分プライバシーで微調整された拡散モデルが有用かつ実証可能なプライベートな合成データを生成できることが示唆された。
論文 参考訳(メタデータ) (2023-02-27T15:02:04Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。