論文の概要: BioMedGPT-Mol: Multi-task Learning for Molecular Understanding and Generation
- arxiv url: http://arxiv.org/abs/2512.04629v1
- Date: Thu, 04 Dec 2025 10:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.102039
- Title: BioMedGPT-Mol: Multi-task Learning for Molecular Understanding and Generation
- Title(参考訳): BioMedGPT-Mol:分子理解と生成のためのマルチタスク学習
- Authors: Chenyang Zuo, Siqi Fan, Zaiqing Nie,
- Abstract要約: 分子理解および生成タスクを支援する分子言語モデルであるBioMedGPT-Molを紹介する。
既存の公開命令データセットをキュレートして統一することにより、大規模で包括的で高品質なトレーニングデータセットを組み立てました。
そのモデルは、巧妙に設計されたマルチタスク学習フレームワークによって微調整される。
- 参考スコア(独自算出の注目度): 9.078742514163524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecules play a crucial role in biomedical research and discovery, particularly in the field of small molecule drug development. Given the rapid advancements in large language models, especially the recent emergence of reasoning models, it is natural to explore how a general-purpose language model can be efficiently adapted for molecular science applications. In this work, we introduce BioMedGPT-Mol, a molecular language model designed to support molecular understanding and generation tasks. By curating and unifying existing public instruction datasets, we have assembled a large-scale, comprehensive, and high-quality training dataset. The model is then fine-tuned through a meticulously designed multi-task learning framework. On a consolidated benchmark derived from LlaSMol, TOMG-Bench, and MuMOInstruct, BioMedGPT-Mol achieves remarkable performance. Our experimental results demonstrate that a general-purpose reasoning model can be effectively and efficiently post-trained into a professional molecular language model through a well-structured multi-task curriculum. Leveraging the power of it, we further explore retrosynthetic planning task, and the performance on RetroBench demonstrates its competitive capability of acting as an end-to-end retrosynthetic planner. We anticipate that our approach can be extended to other biomedical scientific domains.
- Abstract(参考訳): 分子は生物医学の研究や発見、特に小分子の薬物開発において重要な役割を担っている。
大規模言語モデルの急速な進歩、特に最近の推論モデルの出現を考えると、汎用言語モデルが分子科学への応用にどのように効果的に適応できるかを考察することは自然である。
本稿では,分子理解および生成タスクを支援する分子言語モデルであるBioMedGPT-Molを紹介する。
既存の公開命令データセットをキュレートして統一することにより、大規模で包括的で高品質なトレーニングデータセットを組み立てました。
そのモデルは、巧妙に設計されたマルチタスク学習フレームワークによって微調整される。
LlaSMol, TOMG-Bench, MuMOInstruct から得られた総合ベンチマークでは, BioMedGPT-Mol が顕著な性能を発揮する。
実験により, 汎用推論モデルは, 十分に構造化されたマルチタスクのカリキュラムを用いて, プロの分子言語モデルに効果的かつ効率的にポストトレーニングできることを示した。
RetroBenchの性能は, エンド・ツー・エンドのレトロシンセティック・プランナーとして機能することの競争力を示すものである。
我々は、我々のアプローチを他の生物医学的な科学領域に拡張できることを期待している。
関連論文リスト
- MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery [41.21168385964764]
MMAI Gymは、タスク固有の推論、トレーニング、ベンチマークのレシピと同様に、ワンストップの分子データフォーマットとモダリティである。
MMAI Gymを用いて、これらの用途に効率的な液体基礎モデル(LFM)を訓練し、より小さな目的に訓練された基礎モデルは、分子ベンチマークにおいてより大規模な汎用モデルや専門モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-03-03T20:51:51Z) - Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis [51.83339196548892]
ChemCraftは、知識ストレージから化学推論を分離する新しいフレームワークである。
ChemCraftは最小の推論コストで優れたパフォーマンスを実現する。
この研究は、AI支援化学のコスト効率とプライバシ保護のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-25T04:23:34Z) - NovoMolGen: Rethinking Molecular Language Model Pretraining [14.403924658046806]
我々は、デノボ分子生成のための15億分子を事前訓練したトランスフォーマーベースの基礎モデルであるNovoMolGenを紹介する。
実験的な分析により,事前学習中の測定値と実際の下流のパフォーマンスとの間には弱い相関関係が認められた。
NovoMolGenは、新しい最先端の結果を確立し、制約のない分子生成タスクとゴール指向の分子生成タスクの両方において、Moll-LLMや特殊生成モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-19T00:04:48Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - PharMolixFM: All-Atom Foundation Models for Molecular Modeling and Generation [4.402280157389038]
我々は全原子基盤モデルを構築するための統一フレームワークであるPharMolixFMを提案する。
我々のフレームワークは、最先端のマルチモーダル生成モデルを用いた3つの変種を含む。
PharMolixFM-Diffはタンパク質-小分子ドッキングにおける競合予測精度を実現する。
論文 参考訳(メタデータ) (2025-03-12T12:53:43Z) - ExLLM: Experience-Enhanced LLM Optimization for Molecular Design and Beyond [16.374785306736474]
3 つのコンポーネントを持つ LLM-as-optimizer フレームワークである ExLLM (Experience-Enhanced LLM Optimization) を導入する。
ExLLMはPMOに新しい最先端の結果をセットし、我々の設定を強く一般化する。
論文 参考訳(メタデータ) (2025-02-18T13:25:00Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - Mol-Instructions: A Large-Scale Biomolecular Instruction Dataset for
Large Language Models [44.41299105569085]
Mol-Instructionsは、生体分子ドメイン用に設計された包括的な命令データセットである。
各コンポーネントは、生体分子の特徴や行動に関するLCMの理解と予測能力を改善することを目的としている。
生体分子研究の複雑な領域における大規模モデルの性能向上におけるモールインストラクションの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-13T14:35:34Z) - Domain-Agnostic Molecular Generation with Chemical Feedback [44.063584808910896]
MolGenは、分子生成に特化した事前訓練された分子言語モデルである。
1億以上の分子SELFIESを再構成することで構造的および文法的な洞察を内部化する。
我々の化学フィードバックパラダイムは、モデルを分子幻覚から遠ざけ、モデルの推定確率と実世界の化学的嗜好との整合性を確保する。
論文 参考訳(メタデータ) (2023-01-26T17:52:56Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。