論文の概要: Automated Molecular Concept Generation and Labeling with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.09612v1
- Date: Thu, 13 Jun 2024 22:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 17:05:01.911510
- Title: Automated Molecular Concept Generation and Labeling with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた分子概念の自動生成とラベル付け
- Authors: Shichang Zhang, Botao Xia, Zimin Zhang, Qianli Wu, Fang Sun, Ziniu Hu, Yizhou Sun,
- Abstract要約: 本稿では,自動分子概念(AutoMolCo)生成とラベリングのための新しいフレームワークを提案する。
AutoMolCoフレームワーク全体が、概念生成、ラベル付け、精巧化のいずれにおいても、人間の知識を入力せずに自動化されている。
我々は,AutoMolCoによる説明可能なCMが分子科学研究に有用であり,有望であることを示す。
- 参考スコア(独自算出の注目度): 40.16671798724945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence (AI) is significantly transforming scientific research. Explainable AI methods, such as concept-based models (CMs), are promising for driving new scientific discoveries because they make predictions based on meaningful concepts and offer insights into the prediction process. In molecular science, however, explainable CMs are not as common compared to black-box models like Graph Neural Networks (GNNs), primarily due to their requirement for predefined concepts and manual label for each instance, which demand domain knowledge and can be labor-intensive. This paper introduces a novel framework for Automated Molecular Concept (AutoMolCo) generation and labeling. AutoMolCo leverages the knowledge in Large Language Models (LLMs) to automatically generate predictive molecular concepts and label them for each molecule. Such procedures are repeated through iterative interactions with LLMs to refine concepts, enabling simple linear models on the refined concepts to outperform GNNs and LLM in-context learning on several benchmarks. The whole AutoMolCo framework is automated without any human knowledge inputs in either concept generation, labeling, or refinement, thereby surpassing the limitations of extant CMs while maintaining their explainability and allowing easy intervention. Through systematic experiments on MoleculeNet and High-Throughput Experimentation (HTE) datasets, we demonstrate that the AutoMolCo-induced explainable CMs are beneficial and promising for molecular science research.
- Abstract(参考訳): 人工知能(AI)は科学研究を大きく変えつつある。
概念ベースモデル(CM)のような説明可能なAI手法は、意味のある概念に基づいて予測を行い、予測プロセスに関する洞察を提供するため、新しい科学的発見を促進することを約束している。
しかし、分子科学において、説明可能なCMはグラフニューラルネットワーク(GNN)のようなブラックボックスモデルに比べて一般的ではない。
本稿では,自動分子概念(AutoMolCo)生成とラベリングのための新しいフレームワークを提案する。
AutoMolCoはLarge Language Models(LLMs)の知識を活用し、予測分子の概念を自動生成し、各分子にラベル付けする。
このような手順は、LLMとの反復的な相互作用によって概念を洗練させ、改良された概念上の単純な線形モデルにより、いくつかのベンチマークでGNNやLLMのテキスト内学習より優れている。
AutoMolCoフレームワーク全体は、概念生成、ラベル付け、改善のいずれにおいても、人間の知識を入力せずに自動化され、既存のCMの制限を越えながら、説明可能性を維持し、容易に介入できる。
分子ネットワークと高出力実験(HTE)データセットの系統的な実験を通じて,AutoMolCoによる説明可能なCMが分子科学研究に有用で有望であることを示す。
関連論文リスト
- Concept Formation and Alignment in Language Models: Bridging Statistical Patterns in Latent Space to Concept Taxonomy [11.232704182001253]
本稿では,言語モデル(LM)の領域における概念形成とアライメントについて考察する。
様々なLMで学習した意味表現において,概念とその階層構造を識別する機構を提案する。
論文 参考訳(メタデータ) (2024-06-08T01:27:19Z) - Bridging Text and Molecule: A Survey on Multimodal Frameworks for Molecule [16.641797535842752]
本稿では,分子研究のためのマルチモーダルフレームワークに関する最初の体系的研究について述べる。
分子深層学習の発展から始まり、テキストモダリティの関与の必要性を指摘する。
さらに, 大規模言語モデルの利用, 分子課題の促進, 創薬における重要な応用について検討した。
論文 参考訳(メタデータ) (2024-03-07T03:03:13Z) - MolTC: Towards Molecular Relational Modeling In Language Models [28.960416816491392]
分子間相互作用予測のための新しい枠組みとして,分子間相互作用予測法(分子間相互作用予測法)を提案する。
我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-06T07:51:56Z) - A Mass-Conserving-Perceptron for Machine Learning-Based Modeling of Geoscientific Systems [1.1510009152620668]
我々は,PCベースとMLベースのモデリングアプローチのギャップを埋める手段として,物理的に解釈可能なMass Conserving Perceptron (MCP)を提案する。
MCPは、PCモデルの基礎となる有向グラフ構造とGRNNの間の固有同型を利用して、物理過程の質量保存性を明確に表す。
論文 参考訳(メタデータ) (2023-10-12T18:09:33Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。