論文の概要: Infusing Linguistic Knowledge of SMILES into Chemical Language Models
- arxiv url: http://arxiv.org/abs/2205.00084v1
- Date: Wed, 20 Apr 2022 01:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 04:14:36.700936
- Title: Infusing Linguistic Knowledge of SMILES into Chemical Language Models
- Title(参考訳): 化学言語モデルへのSMILESの言語知識の注入
- Authors: Ingoo Lee and Hojung Nam
- Abstract要約: 我々はSMILESを文法解析してサブ構造とそのタイプ間の接続性を求め,SMILESの文法知識と呼ぶ。
我々の表現モデルは、分子特性の予測のために以前の化合物表現よりも優れていた。
- 参考スコア(独自算出の注目度): 0.3655021726150368
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The simplified molecular-input line-entry system (SMILES) is the most popular
representation of chemical compounds. Therefore, many SMILES-based molecular
property prediction models have been developed. In particular,
transformer-based models show promising performance because the model utilizes
a massive chemical dataset for self-supervised learning. However, there is no
transformer-based model to overcome the inherent limitations of SMILES, which
result from the generation process of SMILES. In this study, we grammatically
parsed SMILES to obtain connectivity between substructures and their type,
which is called the grammatical knowledge of SMILES. First, we pretrained the
transformers with substructural tokens, which were parsed from SMILES. Then, we
used the training strategy 'same compound model' to better understand SMILES
grammar. In addition, we injected knowledge of connectivity and type into the
transformer with knowledge adapters. As a result, our representation model
outperformed previous compound representations for the prediction of molecular
properties. Finally, we analyzed the attention of the transformer model and
adapters, demonstrating that the proposed model understands the grammar of
SMILES.
- Abstract(参考訳): 単純化された分子インプットラインエントリーシステム(SMILES)は化合物の最も一般的な表現である。
そのため、SMILESに基づく分子特性予測モデルが数多く開発されている。
特に、トランスフォーマーベースのモデルは、自己教師付き学習に巨大な化学データセットを使用するため、有望な性能を示す。
しかし、SMILESの生成プロセスから生じるSMILES固有の制限を克服するトランスフォーマーベースのモデルはない。
本研究では,SMILESの文法的知識と呼ばれるサブ構造とそのタイプ間の接続性を得るために,SMILESを文法解析した。
まず,SMILESから解析したサブストラクチャトークンを用いたトランスフォーマーの事前学習を行った。
次に,スマイル文法の理解を深めるために,学習戦略「同複合モデル」を用いた。
さらに,コネクティビティとタイプに関する知識をナレッジアダプタでトランスフォーマに注入した。
その結果, この表現モデルは, 分子特性の予測に先行する化合物表現よりも優れていた。
最後に,トランスフォーマーモデルとアダプタの注意を解析し,提案モデルが笑顔の文法を理解することを実証した。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - Transformers Can Represent $n$-gram Language Models [56.06361029539347]
本稿では,言語モデルの単純かつ歴史的なクラスであるトランスフォーマーLMと$n$-gram LMの関係に注目した。
ハードまたはスパースアテンション機構を用いたトランスフォーマーLMは,任意の$n$-gram LMを正確に表現できることを示す。
論文 参考訳(メタデータ) (2024-04-23T12:51:37Z) - Can Large Language Models Understand Molecules? [0.0699049312989311]
下流タスクへのSMILES文字列の埋め込みにおけるSMILESの事前学習モデルと比較して,GPTとLLaMAの性能について検討した。
LLaMAを用いたSMILESの埋め込みは,分子特性およびDDI予測タスクにおいて,GPTの埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2024-01-05T18:31:34Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - Difficulty in chirality recognition for Transformer architectures
learning chemical structures from string [0.0]
SMILESの学習過程と化学構造との関係を代表的NLPモデルであるTransformerを用いて検討した。
トランスフォーマーは分子の部分構造を高速に学習するが、全体構造を理解するには拡張トレーニングが必要である。
論文 参考訳(メタデータ) (2023-03-21T04:47:45Z) - Improving Rare Word Recognition with LM-aware MWER Training [50.241159623691885]
本稿では,ハイブリッド自己回帰変換器(HAT)モデルを識別訓練フレームワークで学習する際のLMを紹介する。
浅層核融合では,仮説生成と損失計算の両方でLMを用いており,LM対応MWER学習モデルでは相対的な10%の改善が達成されている。
再構成セットアップでは、小さなニューラルネットワークモジュールを学習し、データ依存の方法で核融合重みを生成する。
論文 参考訳(メタデータ) (2022-04-15T17:19:41Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Predicting Chemical Properties using Self-Attention Multi-task Learning
based on SMILES Representation [0.0]
本研究では,変圧器変圧器モデルの構造的差異について検討し,新しい自己注意モデルを提案する。
不均衡な化学データセットを用いたマルチタスク学習環境において,自己認識モジュールの表現学習性能を評価した。
論文 参考訳(メタデータ) (2020-10-19T09:46:50Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。