論文の概要: Automated Molecular Concept Generation and Labeling with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.09612v2
- Date: Sat, 14 Dec 2024 07:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:45.415390
- Title: Automated Molecular Concept Generation and Labeling with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた分子概念の自動生成とラベル付け
- Authors: Zimin Zhang, Qianli Wu, Botao Xia, Fang Sun, Ziniu Hu, Yizhou Sun, Shichang Zhang,
- Abstract要約: 本稿では,予測分子概念の自動生成とラベル付けを行うAutomated Molecular Concept (AutoMolCo) フレームワークを提案する。
このフレームワークは人間の知識を入力せずに動作し、既存のCMの限界を克服する。
MoleculeNetとHigh-Throughput Experimentation (HTE)データセットの実験では、AutoMolCoによる説明可能なCMが分子科学研究に有用であることが示されている。
- 参考スコア(独自算出の注目度): 40.16671798724945
- License:
- Abstract: Artificial intelligence (AI) is transforming scientific research, with explainable AI methods like concept-based models (CMs) showing promise for new discoveries. However, in molecular science, CMs are less common than black-box models like Graph Neural Networks (GNNs), due to their need for predefined concepts and manual labeling. This paper introduces the Automated Molecular Concept (AutoMolCo) framework, which leverages Large Language Models (LLMs) to automatically generate and label predictive molecular concepts. Through iterative concept refinement, AutoMolCo enables simple linear models to outperform GNNs and LLM in-context learning on several benchmarks. The framework operates without human knowledge input, overcoming limitations of existing CMs while maintaining explainability and allowing easy intervention. Experiments on MoleculeNet and High-Throughput Experimentation (HTE) datasets demonstrate that AutoMolCo-induced explainable CMs are beneficial for molecular science research.
- Abstract(参考訳): 人工知能(AI)は科学研究を変革し、概念ベースモデル(CM)のような説明可能なAI手法で新たな発見を約束している。
しかし分子科学において、CMは、事前に定義された概念や手動ラベリングを必要とするため、グラフニューラルネットワーク(GNN)のようなブラックボックスモデルよりも一般的ではない。
本稿では,Large Language Models (LLMs) を利用して予測分子概念を自動生成・ラベル付けするAutomated Molecular Concept (AutoMolCo) フレームワークを提案する。
反復的な概念改善により、AutoMolCoは単純な線形モデルにより、複数のベンチマークでGNNやLLMのテキスト内学習より優れている。
このフレームワークは人間の知識を入力せずに動作し、説明可能性を維持しながら、既存のCMの限界を克服し、簡単に介入できる。
MoleculeNetとHigh-Throughput Experimentation (HTE)データセットの実験では、AutoMolCoによる説明可能なCMが分子科学研究に有用であることが示されている。
関連論文リスト
- Concept Formation and Alignment in Language Models: Bridging Statistical Patterns in Latent Space to Concept Taxonomy [11.232704182001253]
本稿では,言語モデル(LM)の領域における概念形成とアライメントについて考察する。
様々なLMで学習した意味表現において,概念とその階層構造を識別する機構を提案する。
論文 参考訳(メタデータ) (2024-06-08T01:27:19Z) - Bridging Text and Molecule: A Survey on Multimodal Frameworks for Molecule [16.641797535842752]
本稿では,分子研究のためのマルチモーダルフレームワークに関する最初の体系的研究について述べる。
分子深層学習の発展から始まり、テキストモダリティの関与の必要性を指摘する。
さらに, 大規模言語モデルの利用, 分子課題の促進, 創薬における重要な応用について検討した。
論文 参考訳(メタデータ) (2024-03-07T03:03:13Z) - MolTC: Towards Molecular Relational Modeling In Language Models [28.960416816491392]
分子間相互作用予測のための新しい枠組みとして,分子間相互作用予測法(分子間相互作用予測法)を提案する。
我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-06T07:51:56Z) - A Mass-Conserving-Perceptron for Machine Learning-Based Modeling of Geoscientific Systems [1.1510009152620668]
我々は,PCベースとMLベースのモデリングアプローチのギャップを埋める手段として,物理的に解釈可能なMass Conserving Perceptron (MCP)を提案する。
MCPは、PCモデルの基礎となる有向グラフ構造とGRNNの間の固有同型を利用して、物理過程の質量保存性を明確に表す。
論文 参考訳(メタデータ) (2023-10-12T18:09:33Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。