論文の概要: Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering
- arxiv url: http://arxiv.org/abs/2404.14467v1
- Date: Mon, 22 Apr 2024 16:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:07:28.877377
- Title: Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering
- Title(参考訳): プロンプト工学による大規模言語モデルにおける化学知識の統合
- Authors: Hongxuan Liu, Haoyu Yin, Zhiyao Luo, Xiaonan Wang,
- Abstract要約: 本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
ベンチマークデータセットは、小さな分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性に適合する。
提案したドメイン知識組み込みのプロンプトエンジニアリング手法は,従来のプロンプトエンジニアリング手法よりも優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 2.140221068402338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a study on the integration of domain-specific knowledge in prompt engineering to enhance the performance of large language models (LLMs) in scientific domains. A benchmark dataset is curated to encapsulate the intricate physical-chemical properties of small molecules, their drugability for pharmacology, alongside the functional attributes of enzymes and crystal materials, underscoring the relevance and applicability across biological and chemical domains.The proposed domain-knowledge embedded prompt engineering method outperforms traditional prompt engineering strategies on various metrics, including capability, accuracy, F1 score, and hallucination drop. The effectiveness of the method is demonstrated through case studies on complex materials including the MacMillan catalyst, paclitaxel, and lithium cobalt oxide. The results suggest that domain-knowledge prompts can guide LLMs to generate more accurate and relevant responses, highlighting the potential of LLMs as powerful tools for scientific discovery and innovation when equipped with domain-specific prompts. The study also discusses limitations and future directions for domain-specific prompt engineering development.
- Abstract(参考訳): 本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
小分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性、生物学的および化学的ドメイン間の関連性や適用性を裏付けるベンチマークデータセットを作製し、提案手法は、能力、正確性、F1スコア、幻覚低下など、様々な指標において従来の急進的なエンジニアリング戦略より優れていることを示す。
この方法の有効性は, マクミラン触媒, パクリタキセル, コバルト酸化リチウムなどの複合材料に関するケーススタディにより実証された。
その結果、ドメイン知識プロンプトは、LLMをより正確かつ関連性の高い応答に導くことができ、LLMがドメイン固有のプロンプトを備える際に、科学的発見と革新のための強力なツールとしての可能性を強調している。
この研究はまた、ドメイン固有のプロンプトエンジニアリング開発における制限と今後の方向性についても論じている。
関連論文リスト
- Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development [24.5979645373074]
Y-Mol は知識誘導型 LLM であり、鉛化合物発見、プリクリニック、クリニック予測といったタスクをこなすように設計されている。
出版物、知識グラフ、専門家が設計した合成データから学習する。
Y-Molは、鉛化合物の発見、分子特性の予測、薬物相互作用のイベントの同定において、汎用LLMよりも著しく優れている。
論文 参考訳(メタデータ) (2024-10-15T12:39:20Z) - Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials [49.19897427783105]
大規模言語モデル(LLM)の創薬・開発分野への統合は、重要なパラダイムシフトである。
これらの先進的な計算モデルが、ターゲット・ディスリーズ・リンクを明らかにし、複雑なバイオメディカルデータを解釈し、薬物分子設計を強化し、薬物の有効性と安全性を予測し、臨床治験プロセスを促進する方法について検討する。
論文 参考訳(メタデータ) (2024-09-06T02:03:38Z) - Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models [12.744381867301353]
大規模言語モデルとドメイン固有小モデルを統合する新しい分子グラフ表現学習フレームワークを提案する。
分子グラフとそれに対応する記述文を含む多モードアライメント法を用いて、分子表現の事前学習を誘導する。
論文 参考訳(メタデータ) (2024-08-19T16:11:59Z) - BatGPT-Chem: A Foundation Large Model For Retrosynthesis Prediction [65.93303145891628]
BatGPT-Chemは150億のパラメータを持つ大規模な言語モデルであり、再合成予測の強化に最適化されている。
我々のモデルは幅広い化学知識を捉え、反応条件の正確な予測を可能にする。
この開発により、化学者は新しい化合物を十分に扱うことができ、医薬品製造と材料科学の革新サイクルを早める可能性がある。
論文 参考訳(メタデータ) (2024-08-19T05:17:40Z) - CEAR: Automatic construction of a knowledge graph of chemical entities and roles from scientific literature [4.086092284014203]
本稿では,ケビの知識で既存の注釈付きテキストコーパスを増補し,化学物質とその科学テキストにおける役割を認識するための大規模モデル(LLM)を微調整する手法を提案する。
LLMのオントロジ的知識理解能力を組み合わせることで、科学文献における化学物質と役割の両方を識別する高精度なリコール率が得られる。
論文 参考訳(メタデータ) (2024-07-31T15:56:06Z) - CACTUS: Chemistry Agent Connecting Tool-Usage to Science [6.832077276041703]
大規模言語モデル(LLM)は、様々なドメインにおいて顕著な可能性を示しているが、ドメイン固有の知識やツールにアクセスし、推論する能力に欠けることが多い。
ケミノフォマティクスツールを統合したLCMベースのエージェントであるCACTUSを導入し,化学および分子発見における高度な推論と問題解決を可能にした。
我々は, Gemma-7b, Falcon-7b, MPT-7b, Llama2-7b, Mistral-7bなど, 様々なオープンソースのLCMを用いてCACTUSの性能評価を行った。
論文 参考訳(メタデータ) (2024-05-02T03:20:08Z) - An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Improving Molecular Representation Learning with Metric
Learning-enhanced Optimal Transport [49.237577649802034]
分子レグレッション問題に対する一般化能力を高めるために,MROTと呼ばれる新しい最適輸送ベースアルゴリズムを開発した。
MROTは最先端のモデルよりも優れており、新しい物質の発見を加速する有望な可能性を示している。
論文 参考訳(メタデータ) (2022-02-13T04:56:18Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。