論文の概要: Training a Scientific Reasoning Model for Chemistry
- arxiv url: http://arxiv.org/abs/2506.17238v1
- Date: Wed, 04 Jun 2025 17:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.815229
- Title: Training a Scientific Reasoning Model for Chemistry
- Title(参考訳): 化学の科学的推論モデルの訓練
- Authors: Siddharth M. Narayanan, James D. Braza, Ryan-Rhys Griffiths, Albert Bou, Geemi Wellawatte, Mayk Caldas Ramos, Ludovico Mitchener, Samuel G. Rodriques, Andrew D. White,
- Abstract要約: 推論モデルは、追加のドメイン事前学習をすることなく、化学のための後処理が可能であることを実証する。
自然言語で推論し,化学構造に反応する24Bパラメータのether0を報告する。
- 参考スコア(独自算出の注目度): 3.52064464182155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning models are large language models that emit a long chain-of-thought before answering, providing both higher accuracy and explicit reasoning for their response. A major question has been whether language model reasoning generalizes beyond mathematics, programming, and logic, where most previous work has focused. We demonstrate that reasoning models can be post-trained for chemistry without additional domain pretraining, and require substantially less data compared to contemporary domain-specific models. We report ether0, a 24B parameter LLM (based on Mistral-Small-24B) that can reason in natural language and respond with chemical structures. This reasoning model was trained with reinforcement learning on 640,730 experimentally-grounded chemistry problems across 375 tasks ranging from synthesizability, to blood-brain barrier permeability, to human receptor activity, to scent. Our model exceeds general-purpose chemistry models, frontier models, and human experts on molecular design tasks. It is also more data efficient relative to specialized models. We anticipate that this method can be applied to train data-efficient language models specialized for tasks across a wide variety of scientific domains.
- Abstract(参考訳): 推論モデル(Reasoning model)は、答えの前に長いチェーンを出力する大きな言語モデルである。
言語モデル推論が数学、プログラミング、論理を超えて一般化するかどうかという大きな疑問が、これまでのほとんどの研究が焦点を当ててきた。
推論モデルは、追加のドメイン事前学習を必要とせず、また、現代のドメイン固有モデルと比較してかなり少ないデータを必要とすることを実証する。
自然言語で推論し化学構造に反応する24Bパラメータのether0(Mistral-Small-24B)を報告する。
この推論モデルは, 合成性, 血液脳関門透過性, 人体受容体活性, 香りなど, 375のタスクに対して, 640,730の化学的問題に対する強化学習を施した。
我々のモデルは、汎用化学モデル、フロンティアモデル、および分子設計タスクに関する人間の専門家を上回る。
また、特殊モデルと比較してデータ効率が良い。
本手法は,多種多様な分野にまたがるタスクに特化した,データ効率のよい言語モデルの訓練に応用できると期待されている。
関連論文リスト
- Assessing the Chemical Intelligence of Large Language Models [12.254249246104655]
大規模言語モデルは多用途で汎用的なツールであり、幅広い用途がある。
有機化学の核となる概念を評価する796の質問からなる、ChemIQと呼ばれる新しいベンチマークを作成しました。
最新の推論モデルは、1Hと13CのNMRデータから構造を解明し、最大10個の重原子を含む分子の74%のSMILES文字列を正しく生成し、ある場合には21個の重原子からなる構造を解くことができる。
論文 参考訳(メタデータ) (2025-05-12T16:44:38Z) - LICO: Large Language Models for In-Context Molecular Optimization [33.5918976228562]
ブラックボックス最適化のために任意のベースLLMを拡張する汎用モデルであるlicOを導入する。
ドメイン上で定義されたさまざまな関数セットに対して、コンテキスト内予測を行うようにモデルを訓練する。
トレーニングが完了すると、licOはコンテクスト内でのプロンプトによって、見つからない分子の性質に一般化できる。
論文 参考訳(メタデータ) (2024-06-27T02:43:18Z) - ChemLLM: A Chemical Large Language Model [49.308528569982805]
大規模言語モデル(LLM)は化学応用において顕著な進歩を遂げた。
しかし、コミュニティには化学に特化したLLMが欠落している。
本稿では,化学に特化した最初のLLMを特徴とする包括的フレームワークであるChemLLMを紹介する。
論文 参考訳(メタデータ) (2024-02-10T01:11:59Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Unifying Molecular and Textual Representations via Multi-task Language
Modelling [11.474894472719543]
化学・自然言語の両領域で幅広いタスクを解くことができる,最初のマルチドメインマルチタスク言語モデルを提案する。
我々のモデルは、単一のドメインやタスク固有のモデルに対して、高価な事前トレーニングを必要とせずに、化学と自然言語を同時に扱うことができる。
我々の研究は、そのようなモデルが物理科学の発見を堅牢かつ効率的に加速できることを示唆している。
論文 参考訳(メタデータ) (2023-01-29T23:56:45Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z) - Keeping it Simple: Language Models can learn Complex Molecular
Distributions [0.0]
本稿では,分子の複雑な分布をコンパイルすることで,複雑な生成モデリングタスクを導入する。
その結果、言語モデルは強力な生成モデルであり、複雑な分子分布を十分に学習できることを示した。
論文 参考訳(メタデータ) (2021-12-06T13:40:58Z) - To what extent do human explanations of model behavior align with actual
model behavior? [91.67905128825402]
モデル推論決定の人間による説明が、モデルが実際にこれらの決定を下す方法と一致する程度を調べた。
自然言語の人間の説明が入力語に対するモデル感度とどのように一致するかを定量化する2つのアライメント指標を定義した。
モデルと人間の説明との整合は、NLI上のモデルの精度によって予測されないことが判明した。
論文 参考訳(メタデータ) (2020-12-24T17:40:06Z) - Learning Latent Space Energy-Based Prior Model for Molecule Generation [59.875533935578375]
分子モデリングのためのSMILES表現を用いた潜時空間エネルギーに基づく先行モデルについて学習する。
本手法は,最先端モデルと競合する妥当性と特異性を持つ分子を生成することができる。
論文 参考訳(メタデータ) (2020-10-19T09:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。