論文の概要: Can LLMs Predict Polymer Physics Just by Reading Synthesis and Processing Prose?
- arxiv url: http://arxiv.org/abs/2605.08255v1
- Date: Thu, 07 May 2026 19:39:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.504978
- Title: Can LLMs Predict Polymer Physics Just by Reading Synthesis and Processing Prose?
- Title(参考訳): LLMは、合成とプロセッシングのプロセスで、高分子物理を予測できるのか?
- Authors: Yuchu Liu, Rui Zhu, Jingwei Xiong, Haixu Tang,
- Abstract要約: textbfPolyLMは、フルテキスト文学から直接材料性能を予測する自然言語のみのフレームワークである。
我々は、22の物理的、機械的、熱的性質にわたる185,000の科学論文と276,400以上のユニークなポリマーサンプルをキュレートした。
このモデルは驚くほど高い予測精度を達成し、複雑な特性に対する新しい最先端のベンチマークを確立する。
- 参考スコア(独自算出の注目度): 6.991343316028922
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Can large language models predict physical and mechanical polymer properties simply by reading unstructured scientific prose? Polymer performance is rarely determined by chemical structure alone; identical nominal polymers can exhibit drastically different behaviors depending on their synthesis route, processing history, morphology, and testing conditions. Yet, state-of-the-art polymer property models typically rely on structure-only representations -- such as SMILES or molecular graphs -- which strip away this vital experimental context. In this work, we introduce \textbf{PolyLM}, a natural-language-only, process- and condition-aware framework that predicts materials performance directly from full-text literature. By circumventing structural inputs entirely, PolyLM preserves the nuanced, unstructured descriptions of synthesis and processing reported by domain scientists. To train this framework, we curated an unprecedented, literature-scale dataset encompassing 185,000 scientific papers and over 276,400 unique polymer samples across 22 physical, mechanical, and thermal properties. We fine-tuned a massive 9-billion-parameter language model (Qwen3.5-9B) using Low-Rank Adaptation (LoRA) and task-level uncertainty weighting. Evaluated on 68,283 held-out observations, the model achieves remarkably high predictive accuracy, establishing new state-of-the-art benchmarks for complex properties. Across the 22 diverse targets, the model achieves a median $R^2$ of 0.74, with predictions for key thermal, mechanical, and physicochemical properties frequently surpassing an $R^2$ of 0.80. These results unequivocally demonstrate that natural language is a powerful, highly scalable interface for realistic materials performance prediction.
- Abstract(参考訳): 大規模言語モデルは、構造化されていない科学的散文を読み取るだけで、物理的および機械的高分子特性を予測できるのか?
同一の特異なポリマーは、合成経路、処理履歴、形態、試験条件によって大きく異なる挙動を示す。
しかし、最先端のポリマー特性モデルは通常、構造のみの表現(SMILESや分子グラフなど)に依存しているため、この重要な実験的な文脈は取り除かれる。
本研究では, 自然言語のみの, プロセス対応, 条件対応のフレームワークである \textbf{PolyLM} を紹介する。
構造的入力を完全に回避することで、PolyLMは、ドメイン科学者によって報告された合成と処理の微妙で非構造的な記述を保存する。
この枠組みをトレーニングするために、我々は185,000の科学論文と22の物理的・機械的・熱的性質にまたがる276,400以上のユニークなポリマーサンプルを含む、前例のない、文献規模のデータセットをキュレートした。
低ランク適応(LoRA)とタスクレベルの不確実性重み付けを用いて,大規模9ビリオンパラメータ言語モデル(Qwen3.5-9B)を微調整した。
68,283個の観測結果に基づいて、このモデルは驚くほど高い予測精度を達成し、複雑な特性に対する新しい最先端のベンチマークを確立する。
22の多様な目標に対して、このモデルは中央値のR^2$の0.74を達成し、鍵となる熱、機械、物理化学的特性の予測は0.80のR^2$をしばしば上回る。
これらの結果は、自然言語が現実的な材料性能予測のための強力でスケーラブルなインターフェースであることを明確に示している。
関連論文リスト
- Gaussian Process Regression-based Knowledge Distillation Framework for Simultaneous Prediction of Physical and Mechanical Properties of Epoxy Polymers [0.0]
熱硬化性エポキシポリマーの物理的および力学的特性を予測するための,ガウスプロセス回帰に基づく知識蒸留(GPR-KD)フレームワークを開発した。
このフレームワークは、GPRの解釈可能性と堅牢性を、ディープラーニングのスケーラビリティと一般化と組み合わせている。
論文 参考訳(メタデータ) (2026-03-12T12:59:03Z) - Multimodal machine learning with large language embedding model for polymer property prediction [2.525624865489335]
本稿では,高分子特性予測タスクに対して,単純で効果的なマルチモーダルアーキテクチャであるPolyLLMemを提案する。
PolyLLMemは、Llama 3によって生成されたテキスト埋め込みとUni-Mol由来の分子構造埋め込みを統合する。
その性能は、グラフベースのモデルやトランスフォーマーベースのモデルと同等であり、場合によってはそれ以上である。
論文 参考訳(メタデータ) (2025-03-29T03:48:11Z) - Nature Language Model: Deciphering the Language of Nature for Scientific Discovery [105.55751854768297]
基礎モデルは自然言語処理と人工知能に革命をもたらした。
本研究では,科学発見のためのシーケンスベース科学基盤モデルであるNatureLMを紹介する。
論文 参考訳(メタデータ) (2025-02-11T13:08:03Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Physion++: Evaluating Physical Scene Understanding that Requires Online
Inference of Different Physical Properties [100.19685489335828]
この研究は、人工システムにおける視覚的身体的予測を厳格に評価する新しいデータセットとベンチマークであるPhysylon++を提案する。
正確な予測が質量、摩擦、弾性、変形性などの特性の推定に依存するシナリオをテストする。
我々は,様々なレベルの学習と組込み知識にまたがる最先端予測モデルの性能を評価し,その性能を人間の予測と比較した。
論文 参考訳(メタデータ) (2023-06-27T17:59:33Z) - TransPolymer: a Transformer-based language model for polymer property
predictions [9.04563945965023]
TransPolymerは、トランスフォーマーをベースとした、高分子特性予測のための言語モデルである。
ケミカル・アウェアネスを用いたポリマー・トークンーザは, ポリマー配列からの学習表現を可能にする。
論文 参考訳(メタデータ) (2022-09-03T01:29:59Z) - Machine learning with persistent homology and chemical word embeddings
improves prediction accuracy and interpretability in metal-organic frameworks [0.07874708385247352]
材料の構造と化学の複雑な表現をキャプチャする記述子を自動的に生成するエンド・ツー・エンドの機械学習モデルを提案する。
物質系から直接、幾何学的および化学的情報をカプセル化する。
提案手法は, 対象物間での精度, 転送可能性の両面において, 一般的に用いられている手作業による特徴量から構築したモデルに比べ, かなり改善されている。
論文 参考訳(メタデータ) (2020-10-01T16:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。