論文の概要: SMI-Editor: Edit-based SMILES Language Model with Fragment-level Supervision
- arxiv url: http://arxiv.org/abs/2412.05569v1
- Date: Sat, 07 Dec 2024 07:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:52:55.739162
- Title: SMI-Editor: Edit-based SMILES Language Model with Fragment-level Supervision
- Title(参考訳): SMI-Editor:Fragment-level Supervisionを用いた編集ベースSMILES言語モデル
- Authors: Kangjie Zheng, Siyue Liang, Junwei Yang, Bin Feng, Zequn Liu, Wei Ju, Zhiping Xiao, Ming Zhang,
- Abstract要約: 本稿では,SMI-Editorを提案する。
SMI-Editorは分子内のサブ構造をランダムに破壊し、結果のSMILESをモデルに戻す。
その後、編集プロセスを通じて元のSMILESを復元しようとする。
実験結果から,SMI-Editorは複数の下流分子タスクにまたがる最先端性能を実現することがわかった。
- 参考スコア(独自算出の注目度): 11.997499811414837
- License:
- Abstract: SMILES, a crucial textual representation of molecular structures, has garnered significant attention as a foundation for pre-trained language models (LMs). However, most existing pre-trained SMILES LMs focus solely on the single-token level supervision during pre-training, failing to fully leverage the substructural information of molecules. This limitation makes the pre-training task overly simplistic, preventing the models from capturing richer molecular semantic information. Moreover, during pre-training, these SMILES LMs only process corrupted SMILES inputs, never encountering any valid SMILES, which leads to a train-inference mismatch. To address these challenges, we propose SMI-Editor, a novel edit-based pre-trained SMILES LM. SMI-Editor disrupts substructures within a molecule at random and feeds the resulting SMILES back into the model, which then attempts to restore the original SMILES through an editing process. This approach not only introduces fragment-level training signals, but also enables the use of valid SMILES as inputs, allowing the model to learn how to reconstruct complete molecules from these incomplete structures. As a result, the model demonstrates improved scalability and an enhanced ability to capture fragment-level molecular information. Experimental results show that SMI-Editor achieves state-of-the-art performance across multiple downstream molecular tasks, and even outperforming several 3D molecular representation models.
- Abstract(参考訳): SMILESは、分子構造の重要なテキスト表現であり、事前学習言語モデル(LM)の基礎として大きな注目を集めている。
しかし、既存の多くのSMILES LMは、事前訓練中に分子のサブ構造情報を完全に活用できず、単一のトークンレベルの監視にのみ焦点をあてている。
この制限により、事前学習タスクは過度に単純化され、モデルがよりリッチな分子意味情報を取得できなくなる。
さらに、事前トレーニングの間、これらのSMILES LMはSMILES入力を不正に処理するだけであり、有効なSMILESに遭遇することはなく、列車の干渉ミスマッチにつながる。
これらの課題に対処するために、新しい編集ベースのSMILES LMであるSMI-Editorを提案する。
SMI-Editorは分子内のサブ構造をランダムに破壊し、結果のSMILESをモデルに戻し、編集プロセスを通じて元のSMILESを復元しようとする。
このアプローチはフラグメントレベルのトレーニング信号を導入するだけでなく、有効なSMILESを入力として使用することで、モデルがこれらの不完全な構造から完全な分子を再構築する方法を学ぶことができる。
その結果、モデルではスケーラビリティが向上し、フラグメントレベルの分子情報をキャプチャする能力が向上した。
実験結果から,SMI-Editorは複数の下流分子タスクにまたがる最先端性能を実現し,さらに複数の3次元分子表現モデルよりも優れていた。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Large Language Models are In-Context Molecule Learners [22.06735237464927]
我々は,LLMが文脈例から分子文アライメントを学習できる新しいパラダイムとして,In-Context Molecule Adaptation (ICMA)を提案する。
ICMAは、Hybrid Context Retrieval、Post-Retrieval Re- rank、In-context Molecule Tuningの3つのステージを組み込んでいる。
ICMTは、余分な訓練コーパスや複雑な構造を伴わずに、LLMに最先端または同等のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-07T03:58:28Z) - Can Large Language Models Understand Molecules? [0.0699049312989311]
下流タスクへのSMILES文字列の埋め込みにおけるSMILESの事前学習モデルと比較して,GPTとLLaMAの性能について検討した。
LLaMAを用いたSMILESの埋め込みは,分子特性およびDDI予測タスクにおいて,GPTの埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2024-01-05T18:31:34Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation [9.116670221263753]
本研究では, t-SMILESと呼ばれる, フレキシブル, フラグメントベース, マルチスケールな分子表現フレームワークを提案する。
フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。
従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。
論文 参考訳(メタデータ) (2023-01-04T21:41:01Z) - From Cloze to Comprehension: Retrofitting Pre-trained Masked Language
Model to Pre-trained Machine Reader [130.45769668885487]
Pre-trained Machine Reader (PMR) は、ラベル付きデータを取得することなく、MLMを事前学習機械読解(MRC)モデルに適合させる新しい手法である。
提案したPMRを構築するために,多量の汎用および高品質なMRCスタイルのトレーニングデータを構築した。
PMRは、MRCの定式化における様々な抽出および分類タスクに対処するための統一モデルとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-12-09T10:21:56Z) - Infusing Linguistic Knowledge of SMILES into Chemical Language Models [0.3655021726150368]
我々はSMILESを文法解析してサブ構造とそのタイプ間の接続性を求め,SMILESの文法知識と呼ぶ。
我々の表現モデルは、分子特性の予測のために以前の化合物表現よりも優れていた。
論文 参考訳(メタデータ) (2022-04-20T01:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。