論文の概要: Chemistry Integrated Language Model using Hierarchical Molecular Representation for Polymer Informatics
- arxiv url: http://arxiv.org/abs/2512.06301v1
- Date: Sat, 06 Dec 2025 05:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.295125
- Title: Chemistry Integrated Language Model using Hierarchical Molecular Representation for Polymer Informatics
- Title(参考訳): 高分子インフォマティクスのための階層的分子表現を用いた化学統合言語モデル
- Authors: Jihun Ahn, Gabriella Pasya Irianti, Vikram Thapar, Su-Mi Hur,
- Abstract要約: 機械学習は無機化合物や小さな分子の物質発見に変化をもたらしたが、ポリマーはこれらの方法にほとんどアクセスできないままである。
本稿では,化学サブ構造をトークンとしてエンコードするHAPPYとトランスフォーマーアーキテクチャ内の数値記述子を組み合わせたフレームワークCI-LLMを紹介する。
プロパティ予測では、De$3$BERTaはSMILESベースのモデルよりも3.5倍高速で精度が向上している。
逆設計では, GPTをベースとしたジェネレータは, ターゲット特性を有するポリマーを生成し, 100%の足場保持を実現し, マルチプロパティ最適化に成功した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Machine learning has transformed material discovery for inorganic compounds and small molecules, yet polymers remain largely inaccessible to these methods. While data scarcity is often cited as the primary bottleneck, we demonstrate that strategic molecular representations can overcome this limitation. We introduce CI-LLM (Chemically Informed Language Model), a framework combining HAPPY (Hierarchically Abstracted rePeat unit of PolYmer), which encodes chemical substructures as tokens, with numerical descriptors within transformer architectures. For property prediction, De$^3$BERTa, our descriptor-enriched encoder, achieves 3.5x faster inference than SMILES-based models with improved accuracy ($R^2$ score gains of 0.9-4.1 percent across four properties), while providing interpretable structure-property insights at the subgroup level. For inverse design, our GPT-based generator produces polymers with targeted properties, achieving 100 percent scaffold retention and successful multi-property optimization for negatively correlated objectives. This comprehensive framework demonstrates both forward prediction and inverse design capabilities, showcasing how strategic molecular representation advances machine learning applications in polymer science.
- Abstract(参考訳): 機械学習は無機化合物や小さな分子の物質発見に変化をもたらしたが、ポリマーはこれらの方法にほとんどアクセスできないままである。
データ不足はしばしば主要なボトルネックとして言及されるが、戦略的な分子表現がこの制限を克服できることを実証する。
HAPPY (Hierarchically Abstracted rePeat unit of PolYmer) を組み込んだCI-LLM(Chemically Informed Language Model)を導入し,化学部分構造をトークンとしてエンコードする。
プロパティ予測のために、記述子に富んだエンコーダであるDe$^3$BERTaは、SMILESベースのモデルよりも3.5倍高速な推論を実現し(R^2$ score gains of 0.9-4.1% in four properties)、サブグループレベルで解釈可能な構造・プロパティの洞察を提供する。
逆設計では, GPTをベースとしたジェネレータは, ターゲット特性を有するポリマーを生成し, 100%の足場保持を実現し, 負に相関した目的に対して多目的最適化に成功した。
この包括的フレームワークは、前方予測と逆設計の両方の能力を示し、戦略分子表現が高分子科学における機械学習の応用をいかに前進させるかを示す。
関連論文リスト
- Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling [74.25438319700929]
分子と細胞応答の局所的グローバル依存性をモデル化する堅牢なフレームワークであるCHMR(Cell-aware Hierarchical Multi-modal Representations)を提案する。
728タスクにまたがる9つの公開ベンチマークで評価され、CHMRは最先端のベースラインを上回っている。
その結果, 階層認識型マルチモーダル学習による分子表現の信頼性, 生物学的基盤化の利点が示された。
論文 参考訳(メタデータ) (2025-11-26T07:15:00Z) - Aligned Manifold Property and Topology Point Clouds for Learning Molecular Properties [55.2480439325792]
この研究は、局所量子由来のスカラー場とカスタムトポロジカルディスクリプタを組み合わせた分子表面表現であるAMPTCRを導入する。
分子量については、AMPTCRが物理的に意味のあるデータをコードし、検証R2は0.87であることを確認した。
細菌抑制タスクでは、AMPTCRは大腸菌阻害値の分類と直接回帰の両方を可能にする。
論文 参考訳(メタデータ) (2025-07-22T04:35:50Z) - Multimodal machine learning with large language embedding model for polymer property prediction [2.525624865489335]
本稿では,高分子特性予測タスクに対して,単純で効果的なマルチモーダルアーキテクチャであるPolyLLMemを提案する。
PolyLLMemは、Llama 3によって生成されたテキスト埋め込みとUni-Mol由来の分子構造埋め込みを統合する。
その性能は、グラフベースのモデルやトランスフォーマーベースのモデルと同等であり、場合によってはそれ以上である。
論文 参考訳(メタデータ) (2025-03-29T03:48:11Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Multiresolution Graph Transformers and Wavelet Positional Encoding for
Learning Hierarchical Structures [6.875312133832078]
複数のスケールで大きな分子を表現できる最初のグラフトランスアーキテクチャであるMulti resolution Graph Transformer (MGT)を提案する。
MGTは原子の表現を学習し、それらを有意義な官能基または繰り返し単位に分類することができる。
提案モデルでは, 高分子とペプチドからなるマクロ分子データセットと, 薬物様分子データセットの2つの結果を得た。
論文 参考訳(メタデータ) (2023-02-17T01:32:44Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Geometric Transformer for End-to-End Molecule Properties Prediction [92.28929858529679]
分子特性予測のためのトランスフォーマーに基づくアーキテクチャを導入し,分子の形状を捉える。
分子幾何学の初期符号化による古典的な位置エンコーダと、学習されたゲート自己保持機構を改変する。
論文 参考訳(メタデータ) (2021-10-26T14:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。