論文の概要: MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery
- arxiv url: http://arxiv.org/abs/2603.03517v1
- Date: Tue, 03 Mar 2026 20:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.087037
- Title: MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery
- Title(参考訳): MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery
- Authors: Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov, Mikolaj Mizera, Roman Schutski, Bogdan Zagribelnyy, Ivan Ilin, Nikita Bondarev, Thomas MacDougall, Mathieu Reymond, Mihir Bafna, Kaeli Kaymak-Loveless, Eugene Babin, Maxim Malkov, Mathias Lechner, Ramin Hasani, Alexander Amini, Vladimir Aladinskiy, Alex Aliper, Alex Zhavoronkov,
- Abstract要約: MMAI Gymは、タスク固有の推論、トレーニング、ベンチマークのレシピと同様に、ワンストップの分子データフォーマットとモダリティである。
MMAI Gymを用いて、これらの用途に効率的な液体基礎モデル(LFM)を訓練し、より小さな目的に訓練された基礎モデルは、分子ベンチマークにおいてより大規模な汎用モデルや専門モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 41.21168385964764
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: General-purpose large language models (LLMs) that rely on in-context learning do not reliably deliver the scientific understanding and performance required for drug discovery tasks. Simply increasing model size or introducing reasoning tokens does not yield significant performance gains. To address this gap, we introduce the MMAI Gym for Science, a one-stop shop molecular data formats and modalities as well as task-specific reasoning, training, and benchmarking recipes designed to teach foundation models the 'language of molecules' in order to solve practical drug discovery problems. We use MMAI Gym to train an efficient Liquid Foundation Model (LFM) for these applications, demonstrating that smaller, purpose-trained foundation models can outperform substantially larger general-purpose or specialist models on molecular benchmarks. Across essential drug discovery tasks - including molecular optimization, ADMET property prediction, retrosynthesis, drug-target activity prediction, and functional group reasoning - the resulting model achieves near specialist-level performance and, in the majority of settings, surpasses larger models, while remaining more efficient and broadly applicable in the domain.
- Abstract(参考訳): 文脈内学習に依存する汎用大規模言語モデル(LLM)は、薬物発見タスクに必要な科学的理解と性能を確実に提供するものではない。
単にモデルのサイズを拡大したり、推論トークンを導入するだけでは、大幅なパフォーマンス向上は得られない。
このギャップに対処するために, MMAI Gym for Scienceという, ワンストップショップの分子データフォーマットとモダリティ, タスク固有の推論, トレーニング, ベンチマークのレシピを導入し, 基礎モデルに「分子の言語」を教えることで, 実用的な薬物発見問題を解決する。
MMAI Gym を用いて、これらの用途に効率的な液体基礎モデル(LFM)を訓練し、より小さな目的に訓練された基礎モデルは、分子ベンチマークにおけるより大規模な汎用モデルや専門モデルよりも優れていることを示す。
分子最適化、ADMET特性予測、レトロシンセシス、薬物標的活動予測、機能的グループ推論を含む重要な薬物発見タスクは、結果として得られるモデルは、ほぼ専門家レベルのパフォーマンスを達成し、ほとんどの設定では、より大きなモデルを超え、ドメイン内でより効率的で広範囲に適用できる。
関連論文リスト
- Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis [51.83339196548892]
ChemCraftは、知識ストレージから化学推論を分離する新しいフレームワークである。
ChemCraftは最小の推論コストで優れたパフォーマンスを実現する。
この研究は、AI支援化学のコスト効率とプライバシ保護のパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-25T04:23:34Z) - BioMedGPT-Mol: Multi-task Learning for Molecular Understanding and Generation [9.078742514163524]
分子理解および生成タスクを支援する分子言語モデルであるBioMedGPT-Molを紹介する。
既存の公開命令データセットをキュレートして統一することにより、大規模で包括的で高品質なトレーニングデータセットを組み立てました。
そのモデルは、巧妙に設計されたマルチタスク学習フレームワークによって微調整される。
論文 参考訳(メタデータ) (2025-12-04T10:00:16Z) - Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - Reasoning-Enhanced Large Language Models for Molecular Property Prediction [19.593493317167646]
分子特性予測は、薬物発見と物質科学にとって不可欠である。
既存のアプローチは、限定的な解釈可能性、クロスタスクの一般化の貧弱、化学的推論能力の欠如に悩まされている。
分子特性予測に化学推論を組み込んだ多モーダル大言語モデルMPPReasonerを提案する。
論文 参考訳(メタデータ) (2025-10-11T15:05:45Z) - NovoMolGen: Rethinking Molecular Language Model Pretraining [14.403924658046806]
我々は、デノボ分子生成のための15億分子を事前訓練したトランスフォーマーベースの基礎モデルであるNovoMolGenを紹介する。
実験的な分析により,事前学習中の測定値と実際の下流のパフォーマンスとの間には弱い相関関係が認められた。
NovoMolGenは、新しい最先端の結果を確立し、制約のない分子生成タスクとゴール指向の分子生成タスクの両方において、Moll-LLMや特殊生成モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-19T00:04:48Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - ExLLM: Experience-Enhanced LLM Optimization for Molecular Design and Beyond [16.374785306736474]
3 つのコンポーネントを持つ LLM-as-optimizer フレームワークである ExLLM (Experience-Enhanced LLM Optimization) を導入する。
ExLLMはPMOに新しい最先端の結果をセットし、我々の設定を強く一般化する。
論文 参考訳(メタデータ) (2025-02-18T13:25:00Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。