論文の概要: Empowering Molecule Discovery for Molecule-Caption Translation with
Large Language Models: A ChatGPT Perspective
- arxiv url: http://arxiv.org/abs/2306.06615v1
- Date: Sun, 11 Jun 2023 08:16:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 17:45:53.117092
- Title: Empowering Molecule Discovery for Molecule-Caption Translation with
Large Language Models: A ChatGPT Perspective
- Title(参考訳): 大規模言語モデルを用いた分子キャプション翻訳のための分子探索
- Authors: Jiatong Li, Yunqing Liu, Wenqi Fan, Xiao-Yong Wei, Hui Liu, Jiliang
Tang, and Qing Li
- Abstract要約: 本稿では,分子キャプション変換のための新しいフレームワーク(textbfMolReGPT)を提案する。
分子理解とテキストベースの分子生成を含む分子キャプション変換によるMollReGPTの有効性を評価する。
- 参考スコア(独自算出の注目度): 37.87910278902631
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Molecule discovery plays a crucial role in various scientific fields,
advancing the design of tailored materials and drugs. Traditional methods for
molecule discovery follow a trial-and-error process, which are both
time-consuming and costly, while computational approaches such as artificial
intelligence (AI) have emerged as revolutionary tools to expedite various
tasks, like molecule-caption translation. Despite the importance of
molecule-caption translation for molecule discovery, most of the existing
methods heavily rely on domain experts, require excessive computational cost,
and suffer from poor performance. On the other hand, Large Language Models
(LLMs), like ChatGPT, have shown remarkable performance in various cross-modal
tasks due to their great powerful capabilities in natural language
understanding, generalization, and reasoning, which provides unprecedented
opportunities to advance molecule discovery. To address the above limitations,
in this work, we propose a novel LLMs-based framework (\textbf{MolReGPT}) for
molecule-caption translation, where a retrieval-based prompt paradigm is
introduced to empower molecule discovery with LLMs like ChatGPT without
fine-tuning. More specifically, MolReGPT leverages the principle of molecular
similarity to retrieve similar molecules and their text descriptions from a
local database to ground the generation of LLMs through in-context few-shot
molecule learning. We evaluate the effectiveness of MolReGPT via
molecule-caption translation, which includes molecule understanding and
text-based molecule generation. Experimental results show that MolReGPT
outperforms fine-tuned models like MolT5-base without any additional training.
To the best of our knowledge, MolReGPT is the first work to leverage LLMs in
molecule-caption translation for advancing molecule discovery.
- Abstract(参考訳): 分子発見は様々な科学分野において重要な役割を担い、調整された材料や薬物の設計を進めた。
従来の分子発見法は、時間とコストの両方がかかる試行錯誤プロセスに従っているが、人工知能(AI)のような計算手法は、分子キャプション翻訳のような様々なタスクを高速化するための革命的なツールとして登場した。
分子発見のための分子カプセル翻訳の重要性にもかかわらず、既存の手法の多くはドメインの専門家に大きく依存しており、過剰な計算コストを必要とし、性能の低下に悩まされている。
一方、chatgptのような大規模言語モデル(llm)は、自然言語理解、一般化、推論における強力な能力により、様々なクロスモーダルタスクにおいて顕著な性能を示しており、分子の発見を前進させる前例のない機会を提供している。
そこで本研究では,分子キャプション変換のための新しいLLMベースのフレームワーク(\textbf{MolReGPT})を提案する。
より具体的には、MollReGPTは分子類似性の原理を利用して、類似した分子とそれらのテキスト記述をローカルデータベースから取得し、コンテキスト内数発の分子学習を通じてLLMの生成を基盤とする。
分子理解とテキストベースの分子生成を含む分子キャプション変換によるMollReGPTの有効性を評価する。
実験結果から、MollReGPTは追加トレーニングなしでMollT5ベースのような微調整モデルよりも優れた性能を示した。
私たちの知る限りでは、MollReGPTは分子キャプション翻訳のLLMを分子発見の進歩に活用する最初の研究である。
関連論文リスト
- Large Language Models are In-Context Molecule Learners [23.382915710826033]
我々は,LLMが文脈例から分子文アライメントを学習できる新しいパラダイムとして,In-Context Molecule Adaptation (ICMA)を提案する。
ICMAは、クロスモーダル検索(英語版)、ポストモーダル検索(英語版)、インコンテクスト・モレクルチューニング(英語版)の3段階を組み込んでいる。
ICMTは、余分な訓練コーパスや複雑な構造を伴わずに、LLMに最先端または同等のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-07T03:58:28Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for
Large Language Models [44.41299105569085]
Mol-Instructionsは、生体分子ドメイン用に設計された包括的な命令データセットである。
各コンポーネントは、生体分子の特徴や行動に関するLCMの理解と予測能力を改善することを目的としている。
生体分子研究の複雑な領域における大規模モデルの性能向上におけるモールインストラクションの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-13T14:35:34Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Domain-Agnostic Molecular Generation with Chemical Feedback [44.063584808910896]
MolGenは、分子生成に特化した事前訓練された分子言語モデルである。
1億以上の分子SELFIESを再構成することで構造的および文法的な洞察を内部化する。
我々の化学フィードバックパラダイムは、モデルを分子幻覚から遠ざけ、モデルの推定確率と実世界の化学的嗜好との整合性を確保する。
論文 参考訳(メタデータ) (2023-01-26T17:52:56Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Fragment-based Sequential Translation for Molecular Optimization [23.152338167332374]
本稿では,分子断片を用いた分子生成のためのフレキシブルな編集パラダイムを提案する。
我々は変分オートエンコーダを用いて分子断片をコヒーレント潜在空間に符号化する。
そして、分子を編集して複雑な化学特性空間を探索する語彙として利用します。
論文 参考訳(メタデータ) (2021-10-26T21:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。