論文の概要: Can Large Language Models Empower Molecular Property Prediction?
- arxiv url: http://arxiv.org/abs/2307.07443v1
- Date: Fri, 14 Jul 2023 16:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:23:55.913232
- Title: Can Large Language Models Empower Molecular Property Prediction?
- Title(参考訳): 大規模言語モデルは分子特性予測を活用できるか?
- Authors: Chen Qian, Huayi Tang, Zhirui Yang, Hong Liang, Yong Liu
- Abstract要約: 分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
- 参考スコア(独自算出の注目度): 16.5246941211725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular property prediction has gained significant attention due to its
transformative potential in multiple scientific disciplines. Conventionally, a
molecule graph can be represented either as a graph-structured data or a SMILES
text. Recently, the rapid development of Large Language Models (LLMs) has
revolutionized the field of NLP. Although it is natural to utilize LLMs to
assist in understanding molecules represented by SMILES, the exploration of how
LLMs will impact molecular property prediction is still in its early stage. In
this work, we advance towards this objective through two perspectives:
zero/few-shot molecular classification, and using the new explanations
generated by LLMs as representations of molecules. To be specific, we first
prompt LLMs to do in-context molecular classification and evaluate their
performance. After that, we employ LLMs to generate semantically enriched
explanations for the original SMILES and then leverage that to fine-tune a
small-scale LM model for multiple downstream tasks. The experimental results
highlight the superiority of text explanations as molecular representations
across multiple benchmark datasets, and confirm the immense potential of LLMs
in molecular property prediction tasks. Codes are available at
\url{https://github.com/ChnQ/LLM4Mol}.
- Abstract(参考訳): 分子特性予測は、複数の科学分野における変化可能性によって、大きな注目を集めている。
従来、分子グラフはグラフ構造化データまたはSMILESテキストとして表現できる。
近年,Large Language Models (LLM) の急速な発展がNLPの分野に革命をもたらした。
LLMを用いてSMILESで表される分子の理解を支援することは自然であるが、LLMが分子特性予測にどのように影響するかの探索はまだ初期段階にある。
本研究では,0/fewショット分子分類と,llmsが生成する分子の表現として用いる新しい説明という2つの視点を通して,この目標に向けて前進する。
具体的には、まず LLM にインコンテキスト分子分類をするよう促し、その性能を評価する。
その後、LSMを用いて、元のSMILESのセマンティックにリッチな説明を生成し、それを活用して、複数の下流タスクのための小規模LMモデルを微調整する。
実験結果は、複数のベンチマークデータセットにまたがる分子表現としてのテキスト説明の優位性を強調し、分子特性予測タスクにおけるLLMの潜在可能性を確認する。
コードは \url{https://github.com/chnq/llm4mol} で入手できる。
関連論文リスト
- Mol-LLM: Generalist Molecular LLM with Improved Graph Utilization [8.846705148987652]
LLM(Large Language Models)は、分子タスクのための一般的なLLMの開発を動機付けている。
ナイーブな次世代予測トレーニングで訓練されたLSMは、元の分子と崩壊した分子の両方に同様の確率スコアを割り当てる。
本稿では, 徹底的なマルチモーダル命令チューニングと分子構造選好最適化に基づく新しいマルチモーダルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-05T01:14:12Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - Benchmarking Large Language Models for Molecule Prediction Tasks [7.067145619709089]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。
LLMは分子予測タスクを効果的に扱えるのか?
6つの標準分子データセットの分類および回帰予測タスクを同定する。
テキストベースのモデルと、分子の幾何学的構造を分析するために特別に設計されたモデルを含む、既存の機械学習(ML)モデルと比較する。
論文 参考訳(メタデータ) (2024-03-08T05:59:56Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Can Large Language Models Understand Molecules? [0.0699049312989311]
下流タスクへのSMILES文字列の埋め込みにおけるSMILESの事前学習モデルと比較して,GPTとLLaMAの性能について検討した。
LLaMAを用いたSMILESの埋め込みは,分子特性およびDDI予測タスクにおいて,GPTの埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2024-01-05T18:31:34Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。