論文の概要: How does Transformer model evolve to learn diverse chemical structures?
- arxiv url: http://arxiv.org/abs/2303.11593v3
- Date: Sat, 7 Oct 2023 06:34:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 14:05:58.349507
- Title: How does Transformer model evolve to learn diverse chemical structures?
- Title(参考訳): Transformerモデルはどのようにして多様な化学構造を学ぶのか?
- Authors: Yasuhiro Yoshikai, Tadahaya Mizuno, Shumpei Nemoto, Hiroyuki Kusuhara
- Abstract要約: SMILESの学習過程と化学構造との関係を代表的NLPモデルであるTransformerを用いて検討した。
結果は、トランスフォーマーは分子の部分構造を素早く学習するが、全体構造を理解するには拡張トレーニングが必要であることを示唆している。
これらの知見は化学におけるNLPモデルの理解を深めることが期待されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen rapid development of descriptor generation based on
representation learning of extremely diverse molecules, especially those that
apply natural language processing (NLP) models to SMILES, a literal
representation of molecular structure. However, little research has been done
on how these models understand chemical structure. To address this black box,
we investigated the relationship between the learning progress of SMILES and
chemical structure using a representative NLP model, the Transformer. The
results suggest that while the Transformer learns partial structures of
molecules quickly, it requires extended training to understand overall
structures. Consistently, the accuracy of molecular property predictions using
descriptors generated from models at different learning steps was similar from
the beginning to the end of training. Furthermore, we found that the
Transformer requires particularly long training to learn chirality and
sometimes stagnates with low translation accuracy due to misunderstanding of
enantiomers. These findings are expected to deepen the understanding of NLP
models in chemistry.
- Abstract(参考訳): 近年、非常に多様な分子の表現学習、特に自然言語処理(nlp)モデルを分子構造のリテラル表現であるスマイルに適用することに基づく記述子生成の急速な発展が見られる。
しかし、これらのモデルがどのように化学構造を理解するかについてはほとんど研究されていない。
このブラックボックスに対処するため,SMILESの学習過程と化学構造との関係を代表的NLPモデルであるTransformerを用いて検討した。
その結果、トランスフォーマーは分子の部分構造を素早く学習する一方で、全体構造を理解するために拡張トレーニングが必要であることが示唆された。
学習段階の異なるモデルから生成された記述子を用いた分子特性予測の精度は,訓練開始から終了まで類似していた。
さらに, トランスフォーマーはキラリティーを学習するために特に長い訓練を要し, エナンチオマーの誤解により翻訳精度が低下することもある。
これらの知見は化学におけるNLPモデルの理解を深めることが期待される。
関連論文リスト
- GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。
液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文 参考訳(メタデータ) (2024-11-03T19:45:15Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Empirical Evidence for the Fragment level Understanding on Drug
Molecular Structure of LLMs [16.508471997999496]
言語モデルが1次元配列から化学空間構造をどう理解するかについて検討する。
その結果,分子断片の観点から,言語モデルで化学構造が理解できることが示唆された。
論文 参考訳(メタデータ) (2024-01-15T12:53:58Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Infusing Linguistic Knowledge of SMILES into Chemical Language Models [0.3655021726150368]
我々はSMILESを文法解析してサブ構造とそのタイプ間の接続性を求め,SMILESの文法知識と呼ぶ。
我々の表現モデルは、分子特性の予測のために以前の化合物表現よりも優れていた。
論文 参考訳(メタデータ) (2022-04-20T01:25:18Z) - GeoT: A Geometry-aware Transformer for Reliable Molecular Property
Prediction and Chemically Interpretable Representation Learning [16.484048833163282]
GeoT(Geometry-aware Transformer)という,分子表現学習のためのトランスフォーマーベースの新しいフレームワークを提案する。
GeoTは、分子特性予測と同様に、信頼性の高い解釈性を提供するように設計された注意に基づくメカニズムを通じて、分子グラフ構造を学習する。
実験的なシミュレーションを含む包括的実験により、GeoTは分子構造に関する化学的な洞察を効果的に学習し、人工知能と分子科学のギャップを埋めることを明らかにした。
論文 参考訳(メタデータ) (2021-06-29T15:47:18Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。