論文の概要: Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery
- arxiv url: http://arxiv.org/abs/2507.07328v1
- Date: Wed, 09 Jul 2025 23:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.226636
- Title: Bridging the Plausibility-Validity Gap by Fine-Tuning a Reasoning-Enhanced LLM for Chemical Synthesis and Discovery
- Title(参考訳): 化学合成・発見のための微調整LDMによる可塑性ギャップのブリッジ化
- Authors: Malikussaid, Hilal Hudan Nuha,
- Abstract要約: 大規模言語モデルはしばしば科学的に妥当だが、実際は無効な情報を生成する。
本稿では, このギャップを埋める手法として, 専門的な科学アシスタントを開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) often generate scientifically plausible but factually invalid information, a challenge we term the "plausibility-validity gap," particularly in specialized domains like chemistry. This paper presents a systematic methodology to bridge this gap by developing a specialized scientific assistant. We utilized the Magistral Small model, noted for its integrated reasoning capabilities, and fine-tuned it using Low-Rank Adaptation (LoRA). A key component of our approach was the creation of a "dual-domain dataset," a comprehensive corpus curated from various sources encompassing both molecular properties and chemical reactions, which was standardized to ensure quality. Our evaluation demonstrates that the fine-tuned model achieves significant improvements over the baseline model in format adherence, chemical validity of generated molecules, and the feasibility of proposed synthesis routes. The results indicate a hierarchical learning pattern, where syntactic correctness is learned more readily than chemical possibility and synthesis feasibility. While a comparative analysis with human experts revealed competitive performance in areas like chemical creativity and reasoning, it also highlighted key limitations, including persistent errors in stereochemistry, a static knowledge cutoff, and occasional reference hallucination. This work establishes a viable framework for adapting generalist LLMs into reliable, specialized tools for chemical research, while also delineating critical areas for future improvement.
- Abstract(参考訳): 大規模言語モデル(LLM)はしばしば科学的に妥当であるが、実際は無効な情報を生成する。
本稿では, このギャップを埋める手法として, 専門的な科学アシスタントを開発する。
我々はMagistral Smallモデルを使用し、その統合推論能力に注目し、Lo-Rank Adaptation (LoRA)を用いて微調整を行った。
提案手法の重要な構成要素は、分子特性と化学反応の両方を含む様々なソースからキュレーションされた包括的コーパスである「デュアルドメインデータセット」の作成であり、品質を保証するために標準化された。
提案手法は, 構造付着性, 生成分子の化学的妥当性, および合成経路の提案可能性において, ベースラインモデルよりも大幅に改善されていることを示す。
その結果, 化学的可能性や合成可能性よりも, 構文的正確性が容易に学習できる階層的学習パターンが示唆された。
人間の専門家による比較分析では、化学の創造性や推論などの分野での競争性能が示されたが、立体化学における持続的なエラー、静的知識の遮断、時には参照幻覚など、重要な制限も強調された。
この研究は、一般のLSMを化学研究のための信頼性の高い専門的なツールに適応する上で有効な枠組みを確立し、また将来の改善のために重要な領域を規定する。
関連論文リスト
- ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - VALID-Mol: a Systematic Framework for Validated LLM-Assisted Molecular Design [0.0]
大規模言語モデル(LLM)と化学検証を統合するためのフレームワークであるVALID-Molを提案する。
提案手法は, メソジカル・プロンプト・エンジニアリング, 自動ケミカル・バリデーション, 微調整ドメイン適応LDMを組み合わせることで, 合成可能な分子を確実に生成する。
論文 参考訳(メタデータ) (2025-06-29T17:17:04Z) - Chemical knowledge-informed framework for privacy-aware retrosynthesis learning [72.39098405805318]
現在の機械学習に基づくレトロシンセシスは、複数のソースからの反応データを1つのエッジに集め、予測モデルを訓練する。
このパラダイムは、組織の境界を越えた広範なデータ可用性を必要とするため、かなりのプライバシーリスクをもたらす。
本研究では, 化学知識インフォームド・フレームワーク (CKIF) について紹介する。
論文 参考訳(メタデータ) (2025-02-26T13:13:24Z) - MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses [72.39144388083712]
大規模言語モデル(LLM)が化学において新規で有効な仮説を自律的に生成できるかどうかは不明である。
我々は、2024年1月以降に発行され、オンライン化された51のハイインパクト化学論文のベンチマークを開発し、それぞれが背景、インスピレーション、仮説を手動で注釈付けした。
LLMは、人間によってまだ認識されていない、潜伏した科学的知識の関連をすでにコード化していると仮定する。
論文 参考訳(メタデータ) (2024-10-09T17:19:58Z) - Aligning Target-Aware Molecule Diffusion Models with Exact Energy Optimization [147.7899503829411]
AliDiffは、事前訓練されたターゲット拡散モデルと望ましい機能特性を整合させる新しいフレームワークである。
最先端の結合エネルギーを持つ分子を最大7.07 Avg. Vina Scoreで生成することができる。
論文 参考訳(メタデータ) (2024-07-01T06:10:29Z) - Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering [2.140221068402338]
本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
ベンチマークデータセットは、小さな分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性に適合する。
提案したドメイン知識組み込みのプロンプトエンジニアリング手法は,従来のプロンプトエンジニアリング手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-04-22T16:55:44Z) - FSscore: A Machine Learning-based Synthetic Feasibility Score Leveraging Human Expertise [0.7045000393120925]
この研究は、機械学習を用いて相対的な合成容易性に基づいて構造をランク付けするFocused Synthesizability score(FSscore)を導入している。
FSscoreは、様々な化学応用のための合成実現可能性の評価を最適化するために、どのようにしてヒト・イン・ザ・ループ・フレームワークを利用できるかを示した。
論文 参考訳(メタデータ) (2023-12-20T03:18:56Z) - Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation [0.0]
本研究は,生物医学的背景知識と対話するための大規模言語モデルの可能性を探るものである。
フレームワークには3つの評価ステップが含まれており、それぞれが流布、即応的なアライメント、セマンティック・コヒーレンス、事実的知識、生成した応答の特異性という3つの側面を逐次評価する。
この研究は、ChatGPT、GPT-4、Llama 2を含む11の最先端のLLMを2つのプロンプトベースタスクで持つ能力に関する体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-05-28T22:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。