論文の概要: CACTUS: Chemistry Agent Connecting Tool-Usage to Science
- arxiv url: http://arxiv.org/abs/2405.00972v1
- Date: Thu, 2 May 2024 03:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 18:04:13.439841
- Title: CACTUS: Chemistry Agent Connecting Tool-Usage to Science
- Title(参考訳): CACTUS: ツールと科学を結びつける化学薬品
- Authors: Andrew D. McNaughton, Gautham Ramalaxmi, Agustin Kruel, Carter R. Knutson, Rohith A. Varikoti, Neeraj Kumar,
- Abstract要約: 大規模言語モデル(LLM)は、様々なドメインにおいて顕著な可能性を示しているが、ドメイン固有の知識やツールにアクセスし、推論する能力に欠けることが多い。
ケミノフォマティクスツールを統合したLCMベースのエージェントであるCACTUSを導入し,化学および分子発見における高度な推論と問題解決を可能にした。
我々は, Gemma-7b, Falcon-7b, MPT-7b, Llama2-7b, Mistral-7bなど, 様々なオープンソースのLCMを用いてCACTUSの性能評価を行った。
- 参考スコア(独自算出の注目度): 6.832077276041703
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have shown remarkable potential in various domains, but they often lack the ability to access and reason over domain-specific knowledge and tools. In this paper, we introduced CACTUS (Chemistry Agent Connecting Tool-Usage to Science), an LLM-based agent that integrates cheminformatics tools to enable advanced reasoning and problem-solving in chemistry and molecular discovery. We evaluate the performance of CACTUS using a diverse set of open-source LLMs, including Gemma-7b, Falcon-7b, MPT-7b, Llama2-7b, and Mistral-7b, on a benchmark of thousands of chemistry questions. Our results demonstrate that CACTUS significantly outperforms baseline LLMs, with the Gemma-7b and Mistral-7b models achieving the highest accuracy regardless of the prompting strategy used. Moreover, we explore the impact of domain-specific prompting and hardware configurations on model performance, highlighting the importance of prompt engineering and the potential for deploying smaller models on consumer-grade hardware without significant loss in accuracy. By combining the cognitive capabilities of open-source LLMs with domain-specific tools, CACTUS can assist researchers in tasks such as molecular property prediction, similarity searching, and drug-likeness assessment. Furthermore, CACTUS represents a significant milestone in the field of cheminformatics, offering an adaptable tool for researchers engaged in chemistry and molecular discovery. By integrating the strengths of open-source LLMs with domain-specific tools, CACTUS has the potential to accelerate scientific advancement and unlock new frontiers in the exploration of novel, effective, and safe therapeutic candidates, catalysts, and materials. Moreover, CACTUS's ability to integrate with automated experimentation platforms and make data-driven decisions in real time opens up new possibilities for autonomous discovery.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なドメインにおいて顕著な可能性を示しているが、ドメイン固有の知識やツールにアクセスし、推論する能力に欠けることが多い。
本稿では,化学・分子発見における高度な推論と問題解決を可能にするため,化学情報処理ツールを統合したLCMベースのエージェントであるCACTUS(Chemistry Agent Connecting Tool-Usage to Science)を紹介した。
我々は, Gemma-7b, Falcon-7b, MPT-7b, Llama2-7b, Mistral-7bなど, 様々なオープンソースのLCMを用いてCACTUSの性能評価を行った。
その結果, CACTUS は, Gemma-7b および Mistral-7b モデルにおいて, 使用するプロンプト戦略によらず高い精度を達成し, ベースライン LLM を著しく上回っていることがわかった。
さらに、ドメイン固有のプロンプトとハードウェア構成がモデル性能に与える影響について検討し、プロンプトエンジニアリングの重要性と、より小さなモデルをコンシューマグレードのハードウェアに展開する可能性を強調した。
オープンソースLLMの認知能力とドメイン固有のツールを組み合わせることで、CACTUSは分子特性予測、類似性探索、薬物類似性評価といった課題の研究者を支援することができる。
さらに、CACTUSは化学情報学の分野で重要なマイルストーンであり、化学と分子発見に携わる研究者に適応可能なツールを提供する。
オープンソースLDMの強みとドメイン固有のツールを統合することで、CACTUSは、新しい、効果的で安全な治療候補、触媒、材料の探索において、科学的進歩を加速し、新たなフロンティアを解放する可能性がある。
さらに、CACTUSが自動実験プラットフォームと統合し、データ駆動による意思決定をリアルタイムで行う能力は、自律的な発見の新たな可能性を開く。
関連論文リスト
- HoneyComb: A Flexible LLM-Based Agent System for Materials Science [31.173615509567885]
HoneyCombは材料科学に特化した最初の大規模言語モデルシステムである。
MatSciKBは、信頼できる文献に基づいた、キュレートされた構造化された知識収集である。
ToolHubはインダクティブツール構築法を使用して、材料科学のためのAPIツールを生成し、分解し、洗練する。
論文 参考訳(メタデータ) (2024-08-29T15:38:40Z) - A Review of Large Language Models and Autonomous Agents in Chemistry [0.7184549921674758]
大規模言語モデル(LLM)は化学において強力なツールとして登場した。
このレビューでは、化学におけるLCMの機能と、自動化による科学的発見を加速する可能性を強調している。
エージェントは新たなトピックであるので、化学以外のエージェントのレビューの範囲を広げます。
論文 参考訳(メタデータ) (2024-06-26T17:33:21Z) - Integrating Chemistry Knowledge in Large Language Models via Prompt Engineering [2.140221068402338]
本稿では,科学領域における大規模言語モデル(LLM)の性能向上を目的として,ドメイン固有の知識の統合について検討する。
ベンチマークデータセットは、小さな分子の複雑な物理化学的性質、薬理学の薬物性、酵素や結晶材料の機能的特性に適合する。
提案したドメイン知識組み込みのプロンプトエンジニアリング手法は,従来のプロンプトエンジニアリング手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-04-22T16:55:44Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in
Cognition, Adaptability, Rationality and Collaboration [102.41118020705876]
大規模言語モデル(LLM)は自然言語処理の分野で大きな進歩を遂げている。
アプリケーションがマルチエージェント環境に拡張されるにつれ、包括的な評価フレームワークの必要性が高まっている。
この研究は、マルチエージェント設定内でLLMを評価するために特別に設計された新しいベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Polymer Informatics: Current Status and Critical Next Steps [1.3238373064156097]
サロゲートモデルは、インスタントプロパティ予測のために利用可能なポリマーデータに基づいて訓練される。
データ駆動型戦略は, 高分子の化学的, 物理的多様性から生じる特異な課題に, 小規模かつ大規模に対処するものである。
アプリケーションターゲットを満たす高度なAIアルゴリズムを用いて, 高分子レコメンデーションを行う逆問題の解法について検討している。
論文 参考訳(メタデータ) (2020-11-01T14:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。