論文の概要: Automated Molecular Concept Generation and Labeling with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.09612v2
- Date: Sat, 14 Dec 2024 07:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:45.415390
- Title: Automated Molecular Concept Generation and Labeling with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた分子概念の自動生成とラベル付け
- Authors: Zimin Zhang, Qianli Wu, Botao Xia, Fang Sun, Ziniu Hu, Yizhou Sun, Shichang Zhang,
- Abstract要約: 本稿では,予測分子概念の自動生成とラベル付けを行うAutomated Molecular Concept (AutoMolCo) フレームワークを提案する。
このフレームワークは人間の知識を入力せずに動作し、既存のCMの限界を克服する。
MoleculeNetとHigh-Throughput Experimentation (HTE)データセットの実験では、AutoMolCoによる説明可能なCMが分子科学研究に有用であることが示されている。
- 参考スコア(独自算出の注目度): 40.16671798724945
- License:
- Abstract: Artificial intelligence (AI) is transforming scientific research, with explainable AI methods like concept-based models (CMs) showing promise for new discoveries. However, in molecular science, CMs are less common than black-box models like Graph Neural Networks (GNNs), due to their need for predefined concepts and manual labeling. This paper introduces the Automated Molecular Concept (AutoMolCo) framework, which leverages Large Language Models (LLMs) to automatically generate and label predictive molecular concepts. Through iterative concept refinement, AutoMolCo enables simple linear models to outperform GNNs and LLM in-context learning on several benchmarks. The framework operates without human knowledge input, overcoming limitations of existing CMs while maintaining explainability and allowing easy intervention. Experiments on MoleculeNet and High-Throughput Experimentation (HTE) datasets demonstrate that AutoMolCo-induced explainable CMs are beneficial for molecular science research.
- Abstract(参考訳): 人工知能(AI)は科学研究を変革し、概念ベースモデル(CM)のような説明可能なAI手法で新たな発見を約束している。
しかし分子科学において、CMは、事前に定義された概念や手動ラベリングを必要とするため、グラフニューラルネットワーク(GNN)のようなブラックボックスモデルよりも一般的ではない。
本稿では,Large Language Models (LLMs) を利用して予測分子概念を自動生成・ラベル付けするAutomated Molecular Concept (AutoMolCo) フレームワークを提案する。
反復的な概念改善により、AutoMolCoは単純な線形モデルにより、複数のベンチマークでGNNやLLMのテキスト内学習より優れている。
このフレームワークは人間の知識を入力せずに動作し、説明可能性を維持しながら、既存のCMの限界を克服し、簡単に介入できる。
MoleculeNetとHigh-Throughput Experimentation (HTE)データセットの実験では、AutoMolCoによる説明可能なCMが分子科学研究に有用であることが示されている。
関連論文リスト
- Graph-based Molecular In-context Learning Grounded on Morgan Fingerprints [28.262593876388397]
In-context Learning (ICL) では、プロパティ予測や分子キャプションなどの分子タスクのための大規模言語モデル(LLM)を、慎重に選択された実演例を入力プロンプトに埋め込む。
しかし、現在の分子タスクのプロンプト検索法は、モーガン指紋のような分子の特徴的類似性に依存しており、これはグローバル分子と原子結合の関係を適切に捉えていない。
本稿では,グローバル分子構造をグラフニューラルネットワーク(GNN)とテキストキャプション(記述)に整合させ,モーガン指紋による局所的特徴類似性を活用する自己教師付き学習手法GAMICを提案する。
論文 参考訳(メタデータ) (2025-02-08T02:46:33Z) - Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。
本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T11:37:19Z) - A quantitative analysis of knowledge-learning preferences in large language models in molecular science [24.80165173525286]
大規模言語モデル(LLM)は、自然言語処理(NLP)の観点から科学的問題に取り組むための新しい研究パラダイムを導入している。
LLMは分子の理解と生成を著しく強化し、しばしば複雑な分子パターンをデコードし合成する能力で既存の手法を超越している。
我々は、ChEBI-20-MMというマルチモーダルベンチマークを提案し、モデルとデータモダリティとの互換性と知識獲得を評価する1263の実験を行った。
論文 参考訳(メタデータ) (2024-02-06T16:12:36Z) - A Mass-Conserving-Perceptron for Machine Learning-Based Modeling of Geoscientific Systems [1.1510009152620668]
我々は,PCベースとMLベースのモデリングアプローチのギャップを埋める手段として,物理的に解釈可能なMass Conserving Perceptron (MCP)を提案する。
MCPは、PCモデルの基礎となる有向グラフ構造とGRNNの間の固有同型を利用して、物理過程の質量保存性を明確に表す。
論文 参考訳(メタデータ) (2023-10-12T18:09:33Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。