論文の概要: SmilesT5: Domain-specific pretraining for molecular language models
- arxiv url: http://arxiv.org/abs/2507.22514v1
- Date: Wed, 30 Jul 2025 09:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.116206
- Title: SmilesT5: Domain-specific pretraining for molecular language models
- Title(参考訳): SmilesT5:分子言語モデルのためのドメイン特異的プレトレーニング
- Authors: Philip Spence, Brooks Paige, Anne Osbourn,
- Abstract要約: 分子特性予測は、薬物の発見と開発においてますます重要な課題である。
自然言語処理の最近の進歩は、複雑な人間の言語を学ぶニューラルネットワークの能力を強調している。
6つの分類に基づく分子特性予測ベンチマークにおいて、ドメイン固有のテキストからテキストへの事前学習タスクを新たに提案する。
- 参考スコア(独自算出の注目度): 4.769637827387851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular property prediction is an increasingly critical task within drug discovery and development. Typically, neural networks can learn molecular properties using graph-based, language-based or feature-based methods. Recent advances in natural language processing have highlighted the capabilities of neural networks to learn complex human language using masked language modelling. These approaches to training large transformer-based deep learning models have also been used to learn the language of molecules, as represented by simplified molecular-input line-entry system (SMILES) strings. Here, we present novel domain-specific text-to-text pretraining tasks that yield improved performance in six classification-based molecular property prediction benchmarks, relative to both traditional likelihood-based training and previously proposed fine-tuning tasks. Through ablation studies, we show that data and computational efficiency can be improved by using these domain-specific pretraining tasks. Finally, the pretrained embeddings from the model can be used as fixed inputs into a downstream machine learning classifier and yield comparable performance to finetuning but with much lower computational overhead.
- Abstract(参考訳): 分子特性予測は、薬物の発見と開発においてますます重要な課題である。
通常、ニューラルネットワークはグラフベース、言語ベース、または特徴ベースメソッドを使用して分子特性を学習することができる。
自然言語処理の最近の進歩は、マスキング言語モデリングを用いて複雑な人間の言語を学ぶニューラルネットワークの能力を強調している。
大規模なトランスフォーマーに基づくディープラーニングモデルをトレーニングするためのこれらのアプローチは、単純化された分子インプットラインエントリーシステム(SMILES)文字列で表されるように、分子の言語を学ぶためにも使われてきた。
そこで本研究では,従来の確率ベーストレーニングと従来提案されていた微調整タスクと比較して,6つの分類に基づく分子特性予測ベンチマークの性能向上を図った,ドメイン固有のテキスト・テキスト事前学習タスクを提案する。
アブレーション研究を通じて、これらの領域固有の事前学習タスクを用いることで、データと計算効率を向上させることができることを示す。
最後に、モデルからの事前訓練された埋め込みは、下流の機械学習分類器への固定入力として使用することができ、微調整に匹敵する性能を得るが、計算オーバーヘッドははるかに少ない。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - In-Context Learning for Few-Shot Molecular Property Prediction [56.67309268480843]
本稿では,文脈内学習の基盤となる概念に適応し,数発の分子特性予測のための新しいアルゴリズムを開発する。
提案手法は分子特性を(分子, 特性測定)ペアの文脈から予測することを学び, 微調整をせずに新しい性質に迅速に適応する。
論文 参考訳(メタデータ) (2023-10-13T05:12:48Z) - Investigating Masking-based Data Generation in Language Models [0.0]
BERTと類似したアーキテクチャを持つモデルの特徴は、マスキング言語モデリングの目的である。
データ拡張は、機械学習で広く使われているデータ駆動技術である。
最近の研究は、NLP下流タスクのための人工的な拡張データを生成するためにマスク付き言語モデルを利用している。
論文 参考訳(メタデータ) (2023-06-16T16:48:27Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Mitigating Data Scarcity for Large Language Models [7.259279261659759]
近年,事前学習型ニューラルネットワークモデル (PNLM) が嵐による自然言語処理の分野に進出している。
データ不足は、医学などの専門分野や、AI研究によって調査されていない低リソース言語でよく見られる。
この論文では、データ強化とニューラルアンサンブル学習技術を用いて、データの不足を軽減することに焦点を当てる。
論文 参考訳(メタデータ) (2023-02-03T15:17:53Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。