論文の概要: Multimodal machine learning with large language embedding model for polymer property prediction
- arxiv url: http://arxiv.org/abs/2503.22962v1
- Date: Sat, 29 Mar 2025 03:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:32:40.835920
- Title: Multimodal machine learning with large language embedding model for polymer property prediction
- Title(参考訳): 高分子特性予測のための大規模言語埋め込みモデルを用いたマルチモーダル機械学習
- Authors: Tianren Zhang, Dai-Bei Yang,
- Abstract要約: 本稿では,高分子特性予測タスクに対して,単純で効果的なマルチモーダルアーキテクチャであるPolyLLMemを提案する。
PolyLLMemは、Llama 3によって生成されたテキスト埋め込みとUni-Mol由来の分子構造埋め込みを統合する。
その性能は、グラフベースのモデルやトランスフォーマーベースのモデルと同等であり、場合によってはそれ以上である。
- 参考スコア(独自算出の注目度): 2.525624865489335
- License:
- Abstract: Contemporary large language models (LLMs), such as GPT-4 and Llama, have harnessed extensive computational power and diverse text corpora to achieve remarkable proficiency in interpreting and generating domain-specific content, including materials science. To leverage the domain knowledge embedded within these models, we propose a simple yet effective multimodal architecture, PolyLLMem, which integrates text embeddings generated by Llama 3 with molecular structure embeddings derived from Uni-Mol, for polymer properties prediction tasks. In our model, Low-rank adaptation (LoRA) layers were also incorporated during the property prediction tasks to refine the embeddings based on our limited polymer dataset, thereby enhancing their chemical relevance for polymer SMILES representation. This balanced fusion of fine-tuned textual and structural information enables PolyLLMem to accurately predict a variety of polymer properties despite the scarcity of training data. Its performance is comparable to, and in some cases exceeds, that of graph-based models, as well as transformer-based models that typically require pretraining on millions of polymer samples. These findings demonstrate that LLM, such as Llama, can effectively capture chemical information encoded in polymer PSMILES, and underscore the efficacy of multimodal fusion of LLM embeddings and molecular structure embeddings in overcoming data scarcity and accelerating the discovery of advanced polymeric materials.
- Abstract(参考訳): GPT-4やLlamaのような現代の大規模言語モデル(LLM)は、幅広い計算能力と多種多様なテキストコーパスを利用して、材料科学を含むドメイン固有のコンテンツを解釈・生成する能力に優れていた。
これらのモデルに埋め込まれたドメイン知識を活用するために,Llama 3で生成されたテキスト埋め込みとUni-Mol由来の分子構造埋め込みを統合した,シンプルで効果的なマルチモーダルアーキテクチャであるPolyLLMemを提案する。
また, このモデルでは, 低ランク適応 (LoRA) 層も特性予測タスク中に組み込まれ, ポリマーのSMILES表現に対する化学的関連性を高めた。
この微調整されたテキストと構造情報のバランスの取れた融合により、PolyLLMemはトレーニングデータの不足にもかかわらず、様々なポリマー特性を正確に予測できる。
その性能はグラフベースのモデルに匹敵し、場合によっては数百万のポリマーサンプルの事前学習を必要とするトランスフォーマーベースのモデルに匹敵する。
これらの結果から, LLMはポリマーPSMILESにコードされた化学情報を効果的に捕捉し, LLMの多モード融合と分子構造埋め込みがデータ不足を克服し, 高度高分子材料の発見を加速する可能性が示唆された。
関連論文リスト
- MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - Molecular topological deep learning for polymer property prediction [18.602659324026934]
高分子特性解析のための分子トポロジカルディープラーニング(Mol-TDL)を開発した。
Mol-TDLは高次相互作用とマルチスケール特性の両方をトポロジカルディープラーニングアーキテクチャに組み込んでいる。
論文 参考訳(メタデータ) (2024-10-07T05:44:02Z) - Many-Shot In-Context Learning for Molecular Inverse Design [56.65345962071059]
大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)において、優れたパフォーマンスを示している。
マルチショットICLで利用可能な実験データの不足を克服する,新しい半教師付き学習手法を開発した。
示すように、この新しい手法は、既存の分子設計のためのICL法を大幅に改善し、科学者にとってアクセスしやすく、使いやすくする。
論文 参考訳(メタデータ) (2024-07-26T21:10:50Z) - MMPolymer: A Multimodal Multitask Pretraining Framework for Polymer Property Prediction [24.975491375575224]
MMPolymerはポリマー1Dシーケンシャルおよび3D構造情報を組み込んだ新しいマルチタスク事前学習フレームワークである。
MMPolymerは、下流特性予測タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-07T08:19:59Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Compositional Representation of Polymorphic Crystalline Materials [56.80318252233511]
PCRLは,構成の確率論的モデリングを用いて,利用可能な構造情報から多型を抽出する手法である。
16のデータセットに対する広範囲な評価は、構成表現の学習におけるPCRLの有効性を示す。
論文 参考訳(メタデータ) (2023-11-17T20:34:28Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - TransPolymer: a Transformer-based language model for polymer property
predictions [9.04563945965023]
TransPolymerは、トランスフォーマーをベースとした、高分子特性予測のための言語モデルである。
ケミカル・アウェアネスを用いたポリマー・トークンーザは, ポリマー配列からの学習表現を可能にする。
論文 参考訳(メタデータ) (2022-09-03T01:29:59Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z) - Copolymer Informatics with Multi-Task Deep Neural Networks [0.0]
コポリマーの性質予測の課題に取り組み、ホモポリマーを超えてポリマーインフォマティクスフレームワークを拡張します。
2つのモノマーのホモポリマーと共重合体のガラス転移、融解、分解温度の18,000以上のデータポイントを含む大きなデータセットを用いる。
開発されたモデルは、適切なデータが利用可能になったときに、よりコポリマー特性に正確、迅速、柔軟、スケーラブルです。
論文 参考訳(メタデータ) (2021-03-25T23:28:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。