論文の概要: Reasoning-Enhanced Large Language Models for Molecular Property Prediction
- arxiv url: http://arxiv.org/abs/2510.10248v1
- Date: Sat, 11 Oct 2025 15:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.857895
- Title: Reasoning-Enhanced Large Language Models for Molecular Property Prediction
- Title(参考訳): 分子特性予測のための推論強化大規模言語モデル
- Authors: Jiaxi Zhuang, Yaorui Shi, Jue Hou, Yunong He, Mingwei Ye, Mingjun Xu, Yuming Su, Linfeng Zhang, Linfeng Zhang, Guolin Ke, Hengxing Cai,
- Abstract要約: 分子特性予測は、薬物発見と物質科学にとって不可欠である。
既存のアプローチは、限定的な解釈可能性、クロスタスクの一般化の貧弱、化学的推論能力の欠如に悩まされている。
分子特性予測に化学推論を組み込んだ多モーダル大言語モデルMPPReasonerを提案する。
- 参考スコア(独自算出の注目度): 19.66170111911912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular property prediction is crucial for drug discovery and materials science, yet existing approaches suffer from limited interpretability, poor cross-task generalization, and lack of chemical reasoning capabilities. Traditional machine learning models struggle with task transferability, while specialized molecular language models provide little insight into their decision-making processes. To address these limitations, we propose \textbf{MPPReasoner}, a multimodal large language model that incorporates chemical reasoning for molecular property prediction. Our approach, built upon Qwen2.5-VL-7B-Instruct, integrates molecular images with SMILES strings to enable comprehensive molecular understanding. We develop a two-stage training strategy: supervised fine-tuning (SFT) using 16,000 high-quality reasoning trajectories generated through expert knowledge and multiple teacher models, followed by Reinforcement Learning from Principle-Guided Rewards (RLPGR). RLPGR employs verifiable, rule-based rewards that systematically evaluate chemical principle application, molecular structure analysis, and logical consistency through computational verification. Extensive experiments across 8 datasets demonstrate significant performance improvements, with MPPReasoner outperforming the best baselines by 7.91\% and 4.53\% on in-distribution and out-of-distribution tasks respectively. MPPReasoner exhibits exceptional cross-task generalization and generates chemically sound reasoning paths that provide valuable insights into molecular property analysis, substantially enhancing both interpretability and practical utility for chemists. Code is available at https://anonymous.4open.science/r/MPPReasoner-12687.
- Abstract(参考訳): 分子特性予測は、薬物発見と物質科学にとって重要であるが、既存のアプローチは、限定的な解釈可能性、クロスタスクの一般化の欠如、化学的推論能力の欠如に悩まされている。
従来の機械学習モデルはタスク転送可能性に苦しむが、特殊な分子言語モデルは意思決定プロセスについての洞察をほとんど提供しない。
これらの制約に対処するため,分子特性予測に化学推論を組み込んだ多モーダル大規模言語モデルである \textbf{MPPReasoner} を提案する。
我々のアプローチはQwen2.5-VL-7B-Instructに基づいており、分子画像とSMILES文字列を統合し、包括的な分子理解を可能にする。
専門家の知識と複数の教師モデルから生成した高品質な推論軌跡を16,000個の高品質な推論軌道を用いて教師付き微調整(SFT)を行い,その後にRLPGR(Reinforcement Learning from Principle-Guided Rewards)という2段階の学習戦略を開発した。
RLPGRは、化学原理の適用、分子構造解析、および計算検証による論理的一貫性を体系的に評価する検証可能な規則に基づく報酬を採用している。
8つのデータセットにわたる大規模な実験は、MPPReasonerがそれぞれ、配布内タスクと配布外タスクで7.91\%と4.53\%の最高のベースラインを上回り、大幅なパフォーマンス向上を示している。
MPPReasonerは例外的なクロスタスクの一般化を示し、化学的に健全な推論経路を生成し、分子特性解析の貴重な洞察を与え、化学者の解釈可能性と実用性の両方を大幅に向上させる。
コードはhttps://anonymous.4open.science/r/MPPReasoner-12687で公開されている。
関連論文リスト
- $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Mol-R1: Towards Explicit Long-CoT Reasoning in Molecule Discovery [21.895481477176475]
Mol-R1は、テキストベースの分子生成におけるR1のようなExplicit Long-CoT推論モデルの説明可能性と推論性能を改善するために設計された新しいフレームワークである。
分子反復適応(英: Molecular Iterative Adaptation)とは、分子発見のためのR1ライクな推論モデルの推論性能を高めるために、SFT(Supervised Fine-tuning)とRPO(Reinforced Policy Optimization)を反復的に組み合わせたトレーニング戦略である。
論文 参考訳(メタデータ) (2025-08-11T18:50:05Z) - MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs [30.030008221150407]
MolReasonerは、大規模言語モデルを記憶から化学推論に移行するために設計された2段階のフレームワークである。
まず,GPT-4o で生成した合成Chain-of-Thought(CoT) サンプルを用いてモデルの推論能力を初期化し,化学的精度を検証した Mol-SFT を提案する。
その後、Moll-RLは、化学構造と言語的記述との整合性を明確に設計した特殊報酬関数による強化学習を適用した。
論文 参考訳(メタデータ) (2025-08-04T05:10:11Z) - MolProphecy: Bridging Medicinal Chemists' Knowledge and Molecular Pre-Trained Models via a Multi-Modal Framework [21.677162643535826]
MolProphecyは、化学者のドメイン知識を分子特性予測モデルに統合するためのフレームワークである。
ChatGPTは、専門家レベルの推論と意思決定をシミュレートする仮想化学者である。
MolProphecyは4つのベンチマークデータセットで、最先端(SOTA)モデルより優れています。
論文 参考訳(メタデータ) (2025-06-26T12:51:59Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。