論文の概要: Chain-of-Thoughts for Molecular Understanding
- arxiv url: http://arxiv.org/abs/2410.05610v1
- Date: Tue, 8 Oct 2024 01:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:38:51.422277
- Title: Chain-of-Thoughts for Molecular Understanding
- Title(参考訳): 分子理解のためのチェーン・オブ・ソート
- Authors: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn,
- Abstract要約: StructCoTは分子の構造的特徴を明示的に注入する構造認識チェーンである。
我々の実験は、StructCoTを微調整フレームワークに組み込むことで、分子理解タスクの一貫性が向上することを示した。
- 参考スコア(独自算出の注目度): 18.532188836688928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adaptation of large language models (LLMs) to chemistry has shown promising performance in molecular understanding tasks, such as generating a text description from a molecule. However, proper reasoning based on molecular structural information remains a significant challenge, e.g., even advanced LLMs such as GPT-4o struggle to identify functional groups which are crucial for inferring the molecular property of interest. To address this limitation, we propose StructCoT, a structure-aware chain-of-thought (CoT) that enhances LLMs' understanding of molecular structures by explicitly injecting the key structural features of molecules. Moreover, we introduce two fine-tuning frameworks for adapting the existing LLMs to use our StructCoT. Our experiments demonstrate that incorporating StructCoT with our fine-tuning frameworks leads to consistent improvements in both molecular understanding tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の化学への適応は、分子からテキスト記述を生成するなど、分子理解タスクにおいて有望な性能を示した。
しかし、分子構造情報に基づく適切な推論は重要な課題であり、例えば、GPT-4oのような先進的なLCMでさえ、興味の分子特性を推測するのに重要な機能群を特定するのに苦労している。
この制限に対処するため,分子の構造的特徴を明示的に注入することにより,LLMの分子構造理解を高める構造認識チェーン・オブ・シント(CoT)であるStructCoTを提案する。
さらに,既存のLLMをStructCoTに適合させるための2つの微調整フレームワークについても紹介する。
我々の実験は、StructCoTを微調整フレームワークに組み込むことで、分子理解タスクの一貫性が向上することを示した。
関連論文リスト
- FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation [35.51027934845928]
トークン化アーキテクチャを採用した統一分子テキストLLMであるUniMoTを紹介する。
ベクトル量子化駆動型トークン化器は、分子を因果依存性を持つ分子トークンの配列に変換する。
UniMoTは、分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。
論文 参考訳(メタデータ) (2024-08-01T18:31:31Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Empirical Evidence for the Fragment level Understanding on Drug
Molecular Structure of LLMs [16.508471997999496]
言語モデルが1次元配列から化学空間構造をどう理解するかについて検討する。
その結果,分子断片の観点から,言語モデルで化学構造が理解できることが示唆された。
論文 参考訳(メタデータ) (2024-01-15T12:53:58Z) - From molecules to scaffolds to functional groups: building context-dependent molecular representation via multi-channel learning [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Difficulty in chirality recognition for Transformer architectures
learning chemical structures from string [0.0]
SMILESの学習過程と化学構造との関係を代表的NLPモデルであるTransformerを用いて検討した。
トランスフォーマーは分子の部分構造を高速に学習するが、全体構造を理解するには拡張トレーニングが必要である。
論文 参考訳(メタデータ) (2023-03-21T04:47:45Z) - Multi-modal Molecule Structure-text Model for Text-based Retrieval and
Editing [107.49804059269212]
分子の化学構造とテキスト記述を共同で学習し, マルチモーダルな分子構造テキストモデル, MoleculeSTMを提案する。
実験において、分子STMは、新しい生化学的概念を創出するための最先端の一般化能力を得る。
論文 参考訳(メタデータ) (2022-12-21T06:18:31Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - Fragment-based Sequential Translation for Molecular Optimization [23.152338167332374]
本稿では,分子断片を用いた分子生成のためのフレキシブルな編集パラダイムを提案する。
我々は変分オートエンコーダを用いて分子断片をコヒーレント潜在空間に符号化する。
そして、分子を編集して複雑な化学特性空間を探索する語彙として利用します。
論文 参考訳(メタデータ) (2021-10-26T21:20:54Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。