Fugu-MT 論文翻訳(概要): Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model

論文の概要: Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model

arxiv url: http://arxiv.org/abs/2403.13244v4
Date: Thu, 10 Oct 2024 04:20:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 22:38:37.321494
Title: Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model
Title（参考訳）: 教師学習型大規模言語モデルを用いた命令型マルチ制約分子生成
Authors: Peng Zhou, Jianmin Wang, Chunyan Li, Zixu Wang, Yiping Liu, Siqi Sun, Jianxin Lin, Leyi Wei, Xibao Cai, Houtim Lai, Wei Liu, Longyue Wang, Yuansheng Liu, Xiangxiang Zeng,
Abstract要約: 本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。 TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
参考スコア（独自算出の注目度）: 49.64512917330373
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While various models and computational tools have been proposed for structure and property analysis of molecules, generating molecules that conform to all desired structures and properties remains a challenge. Here, we introduce a multi-constraint molecular generation large language model, TSMMG, which, akin to a student, incorporates knowledge from various small models and tools, namely, the 'teachers'. To train TSMMG, we construct a large set of text-molecule pairs by extracting molecular knowledge from these 'teachers', enabling it to generate novel molecules that conform to the descriptions through various text prompts. We experimentally show that TSMMG remarkably performs in generating molecules meeting complex, natural language-described property requirements across two-, three-, and four-constraint tasks, with an average molecular validity of over 99% and success ratio of 82.58%, 68.03%, and 67.48%, respectively. The model also exhibits adaptability through zero-shot testing, creating molecules that satisfy combinations of properties that have not been encountered. It can comprehend text inputs with various language styles, extending beyond the confines of outlined prompts, as confirmed through empirical validation. Additionally, the knowledge distillation feature of TSMMG contributes to the continuous enhancement of small models, while the innovative approach to dataset construction effectively addresses the issues of data scarcity and quality, which positions TSMMG as a promising tool in the domains of drug discovery and materials science.
Abstract（参考訳）: 分子の構造と性質解析のための様々なモデルや計算ツールが提案されているが、全ての所望の構造と性質に適合する分子を生成することは依然として課題である。本稿では,学生に類似した多制約分子生成大言語モデルであるTSMMGを紹介し,様々な小モデルやツール,すなわち「教師」の知識を取り入れた。 TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、様々なテキストプロンプトを通して記述に適合する新しい分子を生成することによって、大量のテキスト-分子対を構築する。 TSMMGは,2-,3-,4-制約タスクにまたがる複雑な,自然言語で規定された特性条件を満たす分子の生成において,平均分子効率が99%以上,成功率は82.58%,68.03%,67.48%であることを示す。モデルはまたゼロショットテストを通じて適応性を示し、遭遇していない性質の組み合わせを満たす分子を生成する。様々な言語スタイルでテキスト入力を理解でき、実験的な検証によって確認されたように、概要化されたプロンプトの区切りを超えて拡張できる。さらに、TSMMGの知識蒸留機能は、小さなモデルの継続的な強化に寄与する一方、データセット構築における革新的なアプローチは、データ不足と品質の問題に効果的に対処し、TSMMGを医薬品発見と材料科学の領域における有望なツールとして位置づけている。

関連論文リスト

Improving Large Molecular Language Model via Relation-aware Multimodal Collaboration [34.099746438477816]
マルチレベル分子モード協調プロジェクタを備えた大規模言語モデルに基づく分子アシスタントCoLLaMoを提案する。実験により,我々のCoLLaMoはLMLMの分子モダリティ一般化能力を向上することが示された。
論文参考訳（メタデータ） (2026-01-18T04:38:19Z)
KnowMol: Advancing Molecular Large Language Models with Multi-Level Chemical Knowledge [73.51130155601824]
KnowMol-100Kは100Kの微細な分子アノテーションを持つ大規模データセットである。また,既存の分子表現戦略の限界に効果的に対処する,化学的に不変な分子表現も提案する。 KnowMolは、分子理解および生成タスク間で優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-10-22T11:23:58Z)
NovoMolGen: Rethinking Molecular Language Model Pretraining [14.403924658046806]
我々は、デノボ分子生成のための15億分子を事前訓練したトランスフォーマーベースの基礎モデルであるNovoMolGenを紹介する。実験的な分析により,事前学習中の測定値と実際の下流のパフォーマンスとの間には弱い相関関係が認められた。 NovoMolGenは、新しい最先端の結果を確立し、制約のない分子生成タスクとゴール指向の分子生成タスクの両方において、Moll-LLMや特殊生成モデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-08-19T00:04:48Z)
$\ ext{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-12T05:46:47Z)
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [55.87790704067848]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。異なる分子エンコーダの相補的な情報を統合するモジュールを導入する。実験の結果,Moll-LLaMAは分子の一般的な特徴を理解することができることがわかった。
論文参考訳（メタデータ） (2025-02-19T05:49:10Z)
Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models [43.37148291436855]
分子関連タスクのための大規模言語モデルを改善するための2段階のフレームワークPEITを提案する。最初のステップでは、PEIT-GENと呼ばれるモデルを事前訓練するために、テキスト記述、SMILES、生化学的特性をマルチモーダル入力として使用します。 2番目のステップでは、既存のオープンソースLCMを合成データで微調整し、PEIT-LLMは分子キャプション、テキストベースの分子生成、分子特性予測、新たに提案したマルチ制約分子生成タスクを処理できる。
論文参考訳（メタデータ） (2024-12-24T01:48:07Z)
Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文参考訳（メタデータ） (2024-08-18T11:37:19Z)
MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2024-07-09T01:14:28Z)
Leveraging Biomolecule and Natural Language through Multi-Modal Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文参考訳（メタデータ） (2024-03-03T14:59:47Z)
GIT-Mol: A Multi-modal Large Language Model for Molecular Science with Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文参考訳（メタデータ） (2023-08-14T03:12:29Z)
Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文参考訳（メタデータ） (2023-06-21T02:05:48Z)
Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文参考訳（メタデータ） (2023-06-11T08:16:25Z)
Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文参考訳（メタデータ） (2023-02-04T01:32:40Z)
A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文参考訳（メタデータ） (2022-09-12T00:56:57Z)
Do Large Scale Molecular Language Representations Capture Important Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文参考訳（メタデータ） (2021-06-17T14:33:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。