論文の概要: G2T-LLM: Graph-to-Tree Text Encoding for Molecule Generation with Fine-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2410.02198v1
- Date: Thu, 03 Oct 2024 04:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:54:25.321467
- Title: G2T-LLM: Graph-to-Tree Text Encoding for Molecule Generation with Fine-Tuned Large Language Models
- Title(参考訳): G2T-LLM:微細可変大言語モデルによる分子生成のためのグラフからトレーテキストの符号化
- Authors: Zhaoning Yu, Xiangyang Xu, Hongyang Gao,
- Abstract要約: G2T-LLMは,グラフからツリーへのテキストエンコーディングを用いて,グラフに基づく分子構造をベンチマーク(LLM)に最適化した階層型テキスト形式に変換する手法である。
このエンコーディングは、複雑な分子グラフを大きな言語モデルやXMLなどの木構造形式に変換する。
教師付き微調整により、G2T-LLMは有効でコヒーレントな化学構造を生成し、従来のグラフベースの手法で見られる無効な出力のような一般的な課題に対処する。
- 参考スコア(独自算出の注目度): 15.32011692129901
- License:
- Abstract: We introduce G2T-LLM, a novel approach for molecule generation that uses graph-to-tree text encoding to transform graph-based molecular structures into a hierarchical text format optimized for large language models (LLMs). This encoding converts complex molecular graphs into tree-structured formats, such as JSON and XML, which LLMs are particularly adept at processing due to their extensive pre-training on these types of data. By leveraging the flexibility of LLMs, our approach allows for intuitive interaction using natural language prompts, providing a more accessible interface for molecular design. Through supervised fine-tuning, G2T-LLM generates valid and coherent chemical structures, addressing common challenges like invalid outputs seen in traditional graph-based methods. While LLMs are computationally intensive, they offer superior generalization and adaptability, enabling the generation of diverse molecular structures with minimal task-specific customization. The proposed approach achieved comparable performances with state-of-the-art methods on various benchmark molecular generation datasets, demonstrating its potential as a flexible and innovative tool for AI-driven molecular design.
- Abstract(参考訳): G2T-LLMは,グラフからツリーへのテキストエンコーディングを用いて,グラフに基づく分子構造を大規模言語モデル(LLM)に最適化した階層型テキスト形式に変換する,分子生成の新しいアプローチである。
このエンコーディングは、複雑な分子グラフをJSONやXMLのような木構造形式に変換する。
LLMの柔軟性を活用することで、自然言語のプロンプトによる直感的な相互作用を可能にし、分子設計のためのよりアクセスしやすいインターフェースを提供する。
教師付き微調整により、G2T-LLMは有効でコヒーレントな化学構造を生成し、従来のグラフベースの手法で見られる無効な出力のような一般的な課題に対処する。
LLMは計算集約的であるが、より優れた一般化と適応性を提供し、タスク固有の最小限のカスタマイズで多様な分子構造を生成することができる。
提案手法は、様々なベンチマーク分子生成データセットの最先端手法と同等のパフォーマンスを達成し、AI駆動分子設計のための柔軟で革新的なツールとしての可能性を示した。
関連論文リスト
- Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [65.31067204558536]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - t-SMILES: A Scalable Fragment-based Molecular Representation Framework for De Novo Molecule Generation [9.116670221263753]
本研究では, t-SMILESと呼ばれる, フレキシブル, フラグメントベース, マルチスケールな分子表現フレームワークを提案する。
フラグメント化された分子グラフから生成された全二分木上で幅優先探索を行うことにより得られるSMILES型文字列を用いて分子を記述する。
従来のSMILES、DeepSMILES、SELFIES、ベースラインモデルをゴール指向タスクで大幅に上回っている。
論文 参考訳(メタデータ) (2023-01-04T21:41:01Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Molecular Graph Generation via Geometric Scattering [7.796917261490019]
グラフニューラルネットワーク(GNN)は、薬物の設計と発見の問題を解決するために広く使われている。
分子グラフ生成における表現第一のアプローチを提案する。
我々のアーキテクチャは、医薬品のデータセットの有意義な表現を学習し、目標指向の薬物合成のためのプラットフォームを提供する。
論文 参考訳(メタデータ) (2021-10-12T18:00:23Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。