論文の概要: G2T-LLM: Graph-to-Tree Text Encoding for Molecule Generation with Fine-Tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2410.02198v1
- Date: Thu, 3 Oct 2024 04:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:06:03.812045
- Title: G2T-LLM: Graph-to-Tree Text Encoding for Molecule Generation with Fine-Tuned Large Language Models
- Title(参考訳): G2T-LLM:微細可変大言語モデルによる分子生成のためのグラフからトレーテキストの符号化
- Authors: Zhaoning Yu, Xiangyang Xu, Hongyang Gao,
- Abstract要約: G2T-LLMは,グラフからツリーへのテキストエンコーディングを用いて,グラフに基づく分子構造をベンチマーク(LLM)に最適化した階層型テキスト形式に変換する手法である。
このエンコーディングは、複雑な分子グラフを大きな言語モデルやXMLなどの木構造形式に変換する。
教師付き微調整により、G2T-LLMは有効でコヒーレントな化学構造を生成し、従来のグラフベースの手法で見られる無効な出力のような一般的な課題に対処する。
- 参考スコア(独自算出の注目度): 15.32011692129901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce G2T-LLM, a novel approach for molecule generation that uses graph-to-tree text encoding to transform graph-based molecular structures into a hierarchical text format optimized for large language models (LLMs). This encoding converts complex molecular graphs into tree-structured formats, such as JSON and XML, which LLMs are particularly adept at processing due to their extensive pre-training on these types of data. By leveraging the flexibility of LLMs, our approach allows for intuitive interaction using natural language prompts, providing a more accessible interface for molecular design. Through supervised fine-tuning, G2T-LLM generates valid and coherent chemical structures, addressing common challenges like invalid outputs seen in traditional graph-based methods. While LLMs are computationally intensive, they offer superior generalization and adaptability, enabling the generation of diverse molecular structures with minimal task-specific customization. The proposed approach achieved comparable performances with state-of-the-art methods on various benchmark molecular generation datasets, demonstrating its potential as a flexible and innovative tool for AI-driven molecular design.
- Abstract(参考訳): G2T-LLMは,グラフからツリーへのテキストエンコーディングを用いて,グラフに基づく分子構造を大規模言語モデル(LLM)に最適化した階層型テキスト形式に変換する,分子生成の新しいアプローチである。
このエンコーディングは、複雑な分子グラフをJSONやXMLのような木構造形式に変換する。
LLMの柔軟性を活用することで、自然言語のプロンプトによる直感的な相互作用を可能にし、分子設計のためのよりアクセスしやすいインターフェースを提供する。
教師付き微調整により、G2T-LLMは有効でコヒーレントな化学構造を生成し、従来のグラフベースの手法で見られる無効な出力のような一般的な課題に対処する。
LLMは計算集約的であるが、より優れた一般化と適応性を提供し、タスク固有の最小限のカスタマイズで多様な分子構造を生成することができる。
提案手法は、様々なベンチマーク分子生成データセットの最先端手法と同等のパフォーマンスを達成し、AI駆動分子設計のための柔軟で革新的なツールとしての可能性を示した。
関連論文リスト
- GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。
液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文 参考訳(メタデータ) (2024-11-03T19:45:15Z) - Multimodal Large Language Models for Inverse Molecular Design with Retrosynthetic Planning [32.745100532916204]
大型言語モデル(LLM)は統合されたイメージを持つが、それらをグラフに適応させることは依然として困難である。
Llamoleは、インターリーブテキストとグラフ生成が可能な最初のマルチモーダルLLMである。
Llamoleは、制御可能な分子設計と再合成計画のために、12のメトリクスにまたがる14の適応LDMを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-05T16:35:32Z) - Instruction-Based Molecular Graph Generation with Unified Text-Graph Diffusion Model [22.368332915420606]
Unified Text-Graph Diffusion Model (UTGDiff) は命令から分子グラフを生成するフレームワークである。
UTGDiffは、事前訓練された言語モデルから派生したデノナイジングネットワークとして統一されたテキストグラフ変換器を備えている。
実験の結果,UTGDiffは命令ベース分子の生成と編集に関わるタスクにおいて,シーケンスベースベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2024-08-19T11:09:15Z) - Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。
本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T11:37:19Z) - Many-Shot In-Context Learning for Molecular Inverse Design [56.65345962071059]
大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)において、優れたパフォーマンスを示している。
マルチショットICLで利用可能な実験データの不足を克服する,新しい半教師付き学習手法を開発した。
示すように、この新しい手法は、既存の分子設計のためのICL法を大幅に改善し、科学者にとってアクセスしやすく、使いやすくする。
論文 参考訳(メタデータ) (2024-07-26T21:10:50Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。