論文の概要: GPT-MolBERTa: GPT Molecular Features Language Model for molecular
property prediction
- arxiv url: http://arxiv.org/abs/2310.03030v2
- Date: Tue, 10 Oct 2023 17:30:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:46:11.306012
- Title: GPT-MolBERTa: GPT Molecular Features Language Model for molecular
property prediction
- Title(参考訳): GPT-MolBERTa:分子特性予測のためのGPT分子特徴言語モデル
- Authors: Suryanarayanan Balaji and Rishikesh Magar and Yayati Jadhav and Amir
Barati Farimani
- Abstract要約: GPT-MolBERTaは自己教師付き大規模言語モデル(LLM)であり、分子の詳細なテキスト記述を用いてそれらの特性を予測する。
326000分子のテキストに基づく記述はChatGPTを用いて収集され、LLMを訓練して分子の表現を学習した。
実験により, GPT-MolBERTaは様々な分子特性のベンチマークで良好に動作し, 回帰タスクにおける技術性能の状況に近づいた。
- 参考スコア(独自算出の注目度): 6.349503549199403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of Transformer architectures and their powerful
understanding of textual data, a new horizon has opened up to predict the
molecular properties based on text description. While SMILES are the most
common form of representation, they are lacking robustness, rich information
and canonicity, which limit their effectiveness in becoming generalizable
representations. Here, we present GPT-MolBERTa, a self-supervised large
language model (LLM) which uses detailed textual descriptions of molecules to
predict their properties. A text based description of 326000 molecules were
collected using ChatGPT and used to train LLM to learn the representation of
molecules. To predict the properties for the downstream tasks, both BERT and
RoBERTa models were used in the finetuning stage. Experiments show that
GPT-MolBERTa performs well on various molecule property benchmarks, and
approaching state of the art performance in regression tasks. Additionally,
further analysis of the attention mechanisms show that GPT-MolBERTa is able to
pick up important information from the input textual data, displaying the
interpretability of the model.
- Abstract(参考訳): トランスフォーマーアーキテクチャの出現と、テキストデータに対する強力な理解により、テキスト記述に基づく分子特性の予測のための新たな地平が開かれた。
SMILESは最も一般的な表現形式であるが、ロバスト性、豊富な情報、正準性を欠いており、一般化可能な表現になる際の有効性を制限している。
本稿では,分子の詳細なテキスト記述を用いた自己教師型大規模言語モデル(LLM)であるGPT-MolBERTaについて述べる。
326000分子のテキストに基づく記述はChatGPTを用いて収集され、LLMを訓練して分子の表現を学習した。
下流タスクの特性を予測するために、微細化段階でBERTモデルとRoBERTaモデルの両方が使用された。
実験により, GPT-MolBERTaは様々な分子特性のベンチマークで良好に動作し, 回帰タスクにおける技術性能の状況に近づいた。
さらに、注意機構のさらなる分析により、GPT-MolBERTaは入力されたテキストデータから重要な情報を取り込み、モデルの解釈可能性を示す。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Can Large Language Models Empower Molecular Property Prediction? [16.5246941211725]
分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
論文 参考訳(メタデータ) (2023-07-14T16:06:42Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - KPGT: Knowledge-Guided Pre-training of Graph Transformer for Molecular
Property Prediction [13.55018269009361]
我々は、分子グラフ表現学習のための新しい自己教師付き学習フレームワーク、KPGT(Knowledge-guided Pre-training of Graph Transformer)を紹介する。
KPGTは、いくつかの分子特性予測タスクにおける最先端の手法よりも優れた性能を提供することができる。
論文 参考訳(メタデータ) (2022-06-02T08:22:14Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。