論文の概要: MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses
- arxiv url: http://arxiv.org/abs/2410.07076v1
- Date: Mon, 28 Oct 2024 16:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:37:20.471291
- Title: MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses
- Title(参考訳): MOOSE-Chem:未知の化学仮説を再現する大規模言語モデル
- Authors: Zonglin Yang, Wanhao Liu, Ben Gao, Tong Xie, Yuqiang Li, Wanli Ouyang, Soujanya Poria, Erik Cambria, Dongzhan Zhou,
- Abstract要約: 化学仮説の大多数は、研究の背景といくつかのインスピレーションから得られると仮定する。
これらの問題を調査するため,我々は,自然,科学,あるいは2024年に公表された51の化学論文からなるベンチマークを構築した。
全ての論文は化学博士課程の学生によって背景、インスピレーション、仮説の3つの構成要素に分けられる。
目的は、背景と大きなランダムに選択された化学文献コーパスのみを考慮し、仮説を再発見することである。
- 参考スコア(独自算出の注目度): 72.39144388083712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific discovery contributes largely to human society's prosperity, and recent progress shows that LLMs could potentially catalyze this process. However, it is still unclear whether LLMs can discover novel and valid hypotheses in chemistry. In this work, we investigate this central research question: Can LLMs automatically discover novel and valid chemistry research hypotheses given only a chemistry research background (consisting of a research question and/or a background survey), without limitation on the domain of the research question? After extensive discussions with chemistry experts, we propose an assumption that a majority of chemistry hypotheses can be resulted from a research background and several inspirations. With this key insight, we break the central question into three smaller fundamental questions. In brief, they are: (1) given a background question, whether LLMs can retrieve good inspirations; (2) with background and inspirations, whether LLMs can lead to hypothesis; and (3) whether LLMs can identify good hypotheses to rank them higher. To investigate these questions, we construct a benchmark consisting of 51 chemistry papers published in Nature, Science, or a similar level in 2024 (all papers are only available online since 2024). Every paper is divided by chemistry PhD students into three components: background, inspirations, and hypothesis. The goal is to rediscover the hypothesis, given only the background and a large randomly selected chemistry literature corpus consisting the ground truth inspiration papers, with LLMs trained with data up to 2023. We also develop an LLM-based multi-agent framework that leverages the assumption, consisting of three stages reflecting the three smaller questions. The proposed method can rediscover many hypotheses with very high similarity with the ground truth ones, covering the main innovations.
- Abstract(参考訳): 科学的発見は、主に人間の社会の繁栄に寄与し、最近の進歩は、LSMがこの過程を触媒する可能性があることを示している。
しかし、LSMが化学において新規で有効な仮説を発見できるかどうかはまだ不明である。
LLMは、化学研究の背景(研究課題と/または背景調査を含む)のみに与えられる新規で有効な化学研究仮説を、研究課題の領域に制限を加えることなく、自動的に発見できるのか?
化学専門家との広範な議論の後、研究の背景といくつかのインスピレーションから化学仮説の大多数を導出できるという仮定を提案する。
この重要な洞察で、中心的な質問を3つの小さな基本的な質問に分割します。
簡単に言えば、(1) LLM が良いインスピレーションを得られるかどうか、(2) LLM が仮説に導くことができるかどうか、(3) LLM がそれらをより高いランク付けする適切な仮説を特定できるかどうか、といった背景質問である。
これらの問題を調査するため,我々は,自然,科学,あるいは2024年に発行された51の化学論文からなるベンチマークを構築した(すべての論文は2024年以降,オンラインでのみ公開されている)。
全ての論文は化学博士課程の学生によって背景、インスピレーション、仮説の3つの構成要素に分けられる。
目的は仮説を再発見することであり、背景と、2023年までのデータで訓練されたLLMによる基礎的な真実のインスピレーション論文からなる、大きなランダムに選択された化学文献コーパスのみを考慮に入れたものである。
また,3つの小さな質問を反映した3段階からなる仮定を活かしたLLMベースのマルチエージェントフレームワークも開発している。
提案手法は, 基礎的真理と非常によく似た多くの仮説を再発見し, 主なイノベーションを網羅する。
関連論文リスト
- Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [20.648157071328807]
大規模言語モデル(LLM)は、既存の知識を分析することによって、新しい研究の方向性を特定することができる。
LLMは幻覚を発生させる傾向がある。
我々は,知識グラフから外部構造的知識を統合することで,LLM仮説の生成を促進するシステムKG-CoIを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:50:00Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules? [27.976789491185354]
分子空間におけるベイズ最適化を高速化するために,大規模言語モデル(LLM)が実際に有用かどうかを考察する。
実世界の化学問題に対する我々の実験は、LLMが分子上のBOに有用であることを示しているが、それらはドメイン固有のデータで事前訓練されたり微調整された場合に限られる。
論文 参考訳(メタデータ) (2024-02-07T16:32:58Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - Structured Chemistry Reasoning with Large Language Models [70.13959639460015]
大規模言語モデル(LLMs)は様々な分野において優れているが、特に化学において複雑な科学的推論に苦慮している。
所望のガイダンスを提供し,LSMの化学的推論能力を大幅に向上させる,シンプルで効果的なプロンプト戦略であるStructChemを紹介した。
量子化学、力学、物理化学、運動学の4分野にわたる試験では、StructChemはGPT-4の性能を大幅に向上させ、最大30%のピーク改善を実現している。
論文 参考訳(メタデータ) (2023-11-16T08:20:36Z) - Large Language Models are Zero Shot Hypothesis Proposers [17.612235393984744]
大規模言語モデル(LLM)は、情報障壁を断ち切ることを約束する、グローバルかつ学際的な知識の豊富なものである。
バイオメディカル文献から背景知識と仮説ペアからなるデータセットを構築した。
ゼロショット, 少数ショット, 微調整設定において, 最上位モデルの仮説生成能力を評価する。
論文 参考訳(メタデータ) (2023-11-10T10:03:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。