論文の概要: Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery
- arxiv url: http://arxiv.org/abs/2507.07328v2
- Date: Mon, 10 Nov 2025 04:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 14:56:00.002323
- Title: Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery
- Title(参考訳): 化学合成・発見のための微調整LDMによる可塑性ギャップのブリッジ化
- Authors: Malikussaid, Hilal Hudan Nuha, Isman Kurniawan,
- Abstract要約: 大規模言語モデルは、科学的に合理的に見えるが基本的な原則に反する出力をしばしば生成する。
本稿では、推論中心のモデルアーキテクチャと低ランク適応微調整を組み合わせた体系的なアプローチを提案する。
微調整されたシステムは96.3%の形式順守、97.4%の化学的妥当性、74.4%の合成可能性を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models frequently generate outputs that appear scientifically reasonable yet violate fundamental principles--a phenomenon we characterize as the "plausibility-validity gap." This challenge proves especially acute in chemistry, where superficial correctness masks deeper errors in molecular structure, reaction mechanisms, and synthetic pathways. We present a systematic approach combining a reasoning-centric model architecture (Magistral Small) with Low-Rank Adaptation fine-tuning on a dual-domain dataset covering molecular properties and chemical transformations. Evaluation reveals substantial improvements: the fine-tuned system achieves 96.3% format adherence, 97.4% chemical validity, and 74.4% synthesis feasibility. Comparative analysis shows our approach outperforms specialized translation models like MolT5 (97.4% vs 77.2% validity) while achieving performance comparable to complex tool-augmented systems like ChemCrow (9.0/10 vs 9.24/10 expert rating) through a more transparent, efficient methodology. Results demonstrate a learning hierarchy where syntactic correctness develops before chemical understanding, which precedes synthetic planning capability. This work establishes a reproducible framework for transforming generalist language models into dependable scientific tools while identifying critical areas including stereochemical precision, knowledge currency, and computational accessibility as key challenges for future advancement.
- Abstract(参考訳): 大規模言語モデルは、科学的に合理的に見えるが基本原則に反するアウトプットをしばしば生成します。
表面的正しさは分子構造、反応機構、合成経路の深い誤りを隠蔽する。
本稿では,分子特性と化学変換を網羅した二重領域データセット上で,推論中心モデルアーキテクチャ(Magistral Small)と低ランク適応微調整を組み合わせた体系的アプローチを提案する。
微調整されたシステムは96.3%の形式順守、97.4%の化学的妥当性、74.4%の合成可能性を達成する。
比較分析の結果,MolT5 (97.4%対77.2%の妥当性) のような特殊な翻訳モデルよりも優れており,ChemCrow (9.0/10対9.24/10のエキスパート評価) のような複雑なツール拡張システムに匹敵する性能を実現している。
その結果, 合成計画能力に先行する化学理解の前に, 統語的正しさが発達する学習階層が示された。
この研究は、一般的な言語モデルを信頼性のある科学的ツールに変換するための再現可能な枠組みを確立し、立体化学の精度、知識通貨、計算アクセシビリティといった重要な領域を将来の進歩の鍵となる課題として特定する。
関連論文リスト
- MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs [30.030008221150407]
MolReasonerは、大規模言語モデルを記憶から化学推論に移行するために設計された2段階のフレームワークである。
まず,GPT-4o で生成した合成Chain-of-Thought(CoT) サンプルを用いてモデルの推論能力を初期化し,化学的精度を検証した Mol-SFT を提案する。
その後、Moll-RLは、化学構造と言語的記述との整合性を明確に設計した特殊報酬関数による強化学習を適用した。
論文 参考訳(メタデータ) (2025-08-04T05:10:11Z) - ChemDFM-R: An Chemical Reasoner LLM Enhanced with Atomized Chemical Knowledge [14.6026550444088]
この研究は化学の特定の分野に焦点をあて、ケミカル・リアソナー LLM, ChemDFM-R を開発した。
まず、原子化知識点の包括的データセットを構築し、モデルの基本原理と化学の論理構造に対する理解を深める。
多様な化学ベンチマークの実験により、ChemDFM-Rは、解釈可能で合理的な出力を提供しながら、最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-07-29T16:40:49Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - VALID-Mol: a Systematic Framework for Validated LLM-Assisted Molecular Design [0.0]
大規模言語モデル(LLM)と化学検証を統合するためのフレームワークであるVALID-Molを提案する。
提案手法は, メソジカル・プロンプト・エンジニアリング, 自動ケミカル・バリデーション, 微調整ドメイン適応LDMを組み合わせることで, 合成可能な分子を確実に生成する。
論文 参考訳(メタデータ) (2025-06-29T17:17:04Z) - MolProphecy: Bridging Medicinal Chemists' Knowledge and Molecular Pre-Trained Models via a Multi-Modal Framework [21.677162643535826]
MolProphecyは、化学者のドメイン知識を分子特性予測モデルに統合するためのフレームワークである。
ChatGPTは、専門家レベルの推論と意思決定をシミュレートする仮想化学者である。
MolProphecyは4つのベンチマークデータセットで、最先端(SOTA)モデルより優れています。
論文 参考訳(メタデータ) (2025-06-26T12:51:59Z) - Chemical knowledge-informed framework for privacy-aware retrosynthesis learning [72.39098405805318]
現在の機械学習に基づくレトロシンセシスは、複数のソースからの反応データを1つのエッジに集め、予測モデルを訓練する。
このパラダイムは、組織の境界を越えた広範なデータ可用性を必要とするため、かなりのプライバシーリスクをもたらす。
本研究では, 化学知識インフォームド・フレームワーク (CKIF) について紹介する。
論文 参考訳(メタデータ) (2025-02-26T13:13:24Z) - MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses [72.39144388083712]
大規模言語モデル(LLM)が化学において新規で有効な仮説を自律的に生成できるかどうかは不明である。
我々は、2024年1月以降に発行され、オンライン化された51のハイインパクト化学論文のベンチマークを開発し、それぞれが背景、インスピレーション、仮説を手動で注釈付けした。
LLMは、人間によってまだ認識されていない、潜伏した科学的知識の関連をすでにコード化していると仮定する。
論文 参考訳(メタデータ) (2024-10-09T17:19:58Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Aligning Target-Aware Molecule Diffusion Models with Exact Energy Optimization [147.7899503829411]
AliDiffは、事前訓練されたターゲット拡散モデルと望ましい機能特性を整合させる新しいフレームワークである。
最先端の結合エネルギーを持つ分子を最大7.07 Avg. Vina Scoreで生成することができる。
論文 参考訳(メタデータ) (2024-07-01T06:10:29Z) - Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering [2.140221068402338]
本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
ベンチマークデータセットは、小さな分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性に適合する。
提案したドメイン知識組み込みのプロンプトエンジニアリング手法は,従来のプロンプトエンジニアリング手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-04-22T16:55:44Z) - FSscore: A Machine Learning-based Synthetic Feasibility Score Leveraging Human Expertise [0.7045000393120925]
この研究は、機械学習を用いて相対的な合成容易性に基づいて構造をランク付けするFocused Synthesizability score(FSscore)を導入している。
FSscoreは、様々な化学応用のための合成実現可能性の評価を最適化するために、どのようにしてヒト・イン・ザ・ループ・フレームワークを利用できるかを示した。
論文 参考訳(メタデータ) (2023-12-20T03:18:56Z) - Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation [0.0]
本研究は,生物医学的背景知識と対話するための大規模言語モデルの可能性を探るものである。
フレームワークには3つの評価ステップが含まれており、それぞれが流布、即応的なアライメント、セマンティック・コヒーレンス、事実的知識、生成した応答の特異性という3つの側面を逐次評価する。
この研究は、ChatGPT、GPT-4、Llama 2を含む11の最先端のLLMを2つのプロンプトベースタスクで持つ能力に関する体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-05-28T22:46:21Z) - Differentiable Scaffolding Tree for Molecular Optimization [47.447362691543304]
本稿では,離散的な化学構造を局所的な微分可能木に変換するための知識ネットワークを用いた微分可能な足場木(DST)を提案する。
実験により, 勾配に基づく分子最適化は有効であり, 試料効率が高いことが示された。
論文 参考訳(メタデータ) (2021-09-22T01:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。