論文の概要: Deciphering Scientific Reasoning Steps from Outcome Data for Molecule Optimization
- arxiv url: http://arxiv.org/abs/2603.20262v1
- Date: Fri, 13 Mar 2026 06:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.945889
- Title: Deciphering Scientific Reasoning Steps from Outcome Data for Molecule Optimization
- Title(参考訳): 分子最適化のための成果データからの科学的推論ステップの解読
- Authors: Zequn Liu, Kehan Wu, Shufang Xie, Zekun Guo, Wei Zhang, Tao Qin, Renhe Liu, Yingce Xia,
- Abstract要約: 結果から科学的推論を解読するフレームワークであるDESROを提案する。
グループ化されたデータ内の共有パターンと重要な違いを分析することで、大きな言語モデル(LLM)が基盤となるロジックを復元することができる。
我々はこの枠組みを分子最適化において、薬物発見の重要な段階としてインスタンス化する。
- 参考スコア(独自算出の注目度): 22.850204283344524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging reasoning models hold promise for automating scientific discovery. However, their training is hindered by a critical supervision gap: experimental outcomes are abundant, whereas intermediate reasoning steps are rarely documented at scale. To bridge this gap, we propose DESRO, a framework for deciphering scientific reasoning from outcomes. By analyzing shared patterns and key differences within grouped data, a large language model (LLM) can recover the underlying logic. We instantiate this framework in molecule optimization, a pivotal stage in drug discovery that traditionally relies on the iterative reasoning of medicinal chemists. Across 2.3 million molecular property records, our framework infers optimization rationales by grouping molecules with shared fragments, then using an LLM to analyze how structural variations correlate with property differences. Based on the derived data, we train a model that conducts molecule optimization through an interpretable reasoning process. DESRO achieves the highest success rates on 15 out of 18 tasks, spanning both single- and multi-property optimization of bioactivity and ADMET properties. The reasoning process enables robust generalization to out-of-distribution scenarios, including novel property combinations, unseen biological targets, and unseen properties defined solely by natural language descriptions. In retrospective case studies under strict temporal splits, the model autonomously reconstructs expert-level lead optimization trajectories. Additionally, our framework extends beyond molecule optimization to reaction ligand selection. Our results establish deciphering reasoning steps from outcome data as a viable paradigm for enabling scientific reasoning, providing a scalable approach to accelerate scientific discovery.
- Abstract(参考訳): 新たな推論モデルは、科学的発見の自動化を約束する。
実験結果が豊富であるのに対して、中間的推論ステップは大規模に文書化されることはめったにない。
このギャップを埋めるために、我々は結果から科学的推論を解読するフレームワークであるDESROを提案する。
グループ化されたデータ内の共有パターンと重要な違いを分析することで、大きな言語モデル(LLM)が基盤となるロジックを復元することができる。
我々は、伝統的に薬理学者の反復的推論に依存する薬物発見の重要な段階である分子最適化において、この枠組みをインスタンス化する。
2.3百万の分子特性記録を網羅し、分子を共有フラグメントでグループ化し、LLMを用いて構造的変動が性質の違いとどのように相関するかを解析することにより、最適化の合理性を推定する。
導出データに基づいて、解釈可能な推論プロセスを通じて分子最適化を行うモデルを訓練する。
DESROは18タスク中15タスクで最高成功率を達成し、生物活性とADMET特性のシングルプロパティ最適化とマルチプロパティ最適化の両方にまたがる。
推論プロセスは、新しい性質の組み合わせ、目に見えない生物学的標的、そして自然言語の記述によってのみ定義された見えない性質を含む、配布外シナリオへの堅牢な一般化を可能にする。
厳密な時間分割の下での振り返りケーススタディでは、モデルは専門家レベルのリード最適化軌道を自律的に再構築する。
さらに,本フレームワークは分子最適化からリガンド選択まで拡張する。
本研究は,科学的推論を実現するための有効なパラダイムとして,結果データからの推論ステップの解読を確立し,科学的発見を加速するためのスケーラブルなアプローチを提供する。
関連論文リスト
- MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation [20.62843594129358]
分子構造解明のための新規なエージェントベース評価フレームワークであるMolQuestを紹介する。
既存のデータセットとは異なり、MolQuestは分子構造解明をマルチターンインタラクティブタスクとして定式化している。
その結果、現代のフロンティアモデルでは、真正の科学的シナリオにおいて重大な制限が示されることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-26T09:57:17Z) - Logos: An evolvable reasoning engine for rational molecular design [18.041008766322346]
我々は、多段階の論理的推論と厳密な化学的整合性を統合する、コンパクトな分子推論モデルであるLogosを提案する。
複数のベンチマークデータセットにまたがって、Logosは構造的精度と化学的妥当性の両方において高いパフォーマンスを達成する。
Logosは、生成された各構造の基礎となる設計ロジックの人間による検査と評価を可能にする。
論文 参考訳(メタデータ) (2026-03-10T06:56:35Z) - DrugR: Optimizing Molecular Drugs through LLM-based Explicit Reasoning [24.70952870676648]
DrugRは、明示的で段階的な薬理学的推論を最適化プロセスに導入する、大きな言語モデルである。
提案手法は, ドメイン固有の事前学習, 逆データ工学による微調整, 自己バランス型多粒性強化学習を統合した。
実験結果から、Dr.Rは構造的類似性や標的結合親和性を損なうことなく、複数の特性を包括的に拡張できることが示された。
論文 参考訳(メタデータ) (2026-02-09T02:26:25Z) - CoT-Evo: Evolutionary Distillation of Chain-of-Thought for Scientific Reasoning [63.44477226386808]
先進的な大規模言語モデル(LLM)からのCoT蒸留は、一般的な推論タスクにおいて有効であることが証明されている。
しかし、先進的なモデルでさえ、誤った、あるいは表面的な推論をしばしば生み出す科学領域では苦戦している。
この問題を解決するために, 進化的CoT蒸留フレームワークであるCoT-Evoを提案する。
論文 参考訳(メタデータ) (2025-10-15T05:29:56Z) - Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery [0.0]
大規模言語モデルは、科学的に合理的に見えるが基本的な原則に反する出力をしばしば生成する。
本稿では、推論中心のモデルアーキテクチャと低ランク適応微調整を組み合わせた体系的なアプローチを提案する。
微調整されたシステムは96.3%の形式順守、97.4%の化学的妥当性、74.4%の合成可能性を達成する。
論文 参考訳(メタデータ) (2025-07-09T23:05:23Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Text-Guided Multi-Property Molecular Optimization with a Diffusion Language Model [20.250683535089617]
変換器を用いた拡散言語モデル(TransDLM)を用いたテキスト誘導多目的分子最適化手法を提案する。
物理的、化学的に詳細なセマンティクスを特異的な分子表現と融合することにより、TransDLMは様々な情報ソースを効果的に統合し、正確な最適化を導く。
論文 参考訳(メタデータ) (2024-10-17T14:30:27Z) - Aligning Target-Aware Molecule Diffusion Models with Exact Energy Optimization [147.7899503829411]
AliDiffは、事前訓練されたターゲット拡散モデルと望ましい機能特性を整合させる新しいフレームワークである。
最先端の結合エネルギーを持つ分子を最大7.07 Avg. Vina Scoreで生成することができる。
論文 参考訳(メタデータ) (2024-07-01T06:10:29Z) - Differentiable Scaffolding Tree for Molecular Optimization [47.447362691543304]
本稿では,離散的な化学構造を局所的な微分可能木に変換するための知識ネットワークを用いた微分可能な足場木(DST)を提案する。
実験により, 勾配に基づく分子最適化は有効であり, 試料効率が高いことが示された。
論文 参考訳(メタデータ) (2021-09-22T01:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。