論文の概要: Scientific Language Modeling: A Quantitative Review of Large Language
Models in Molecular Science
- arxiv url: http://arxiv.org/abs/2402.04119v1
- Date: Tue, 6 Feb 2024 16:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:21:19.374791
- Title: Scientific Language Modeling: A Quantitative Review of Large Language
Models in Molecular Science
- Title(参考訳): 科学言語モデリング:分子科学における大規模言語モデルの定量的評価
- Authors: Pengfei Liu, Jun Tao, Zhixiang Ren
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)の観点から科学的問題に取り組むための新しいアプローチを提供する。
我々は、ChEBI-20-MMというマルチモーダルベンチマークを提案し、モデルとデータモダリティとの互換性と知識獲得を評価する1263の実験を行った。
我々の先駆的な分析は、学習メカニズムを探求し、分子科学におけるSLMの進歩の道を開くものである。
- 参考スコア(独自算出の注目度): 27.874571056109758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient molecular modeling and design are crucial for the discovery and
exploration of novel molecules, and the incorporation of deep learning methods
has revolutionized this field. In particular, large language models (LLMs)
offer a fresh approach to tackle scientific problems from a natural language
processing (NLP) perspective, introducing a research paradigm called scientific
language modeling (SLM). However, two key issues remain: how to quantify the
match between model and data modalities and how to identify the
knowledge-learning preferences of models. To address these challenges, we
propose a multi-modal benchmark, named ChEBI-20-MM, and perform 1263
experiments to assess the model's compatibility with data modalities and
knowledge acquisition. Through the modal transition probability matrix, we
provide insights into the most suitable modalities for tasks. Furthermore, we
introduce a statistically interpretable approach to discover context-specific
knowledge mapping by localized feature filtering. Our pioneering analysis
offers an exploration of the learning mechanism and paves the way for advancing
SLM in molecular science.
- Abstract(参考訳): 効率的な分子モデリングと設計は、新しい分子の発見と探索に不可欠であり、深層学習法の導入はこの分野に革命をもたらした。
特に、大きな言語モデル(LLM)は、自然言語処理(NLP)の観点から科学的問題に取り組むための新しいアプローチを提供し、科学言語モデリング(SLM)と呼ばれる研究パラダイムを導入している。
しかし、モデルとデータモダリティのマッチングを定量化する方法と、モデルの知識-学習の好みを特定する方法の2つの大きな問題が残る。
これらの課題に対処するため、ChEBI-20-MMと呼ばれるマルチモーダルベンチマークを提案し、モデルとデータモダリティとの互換性と知識獲得を評価する1263の実験を行った。
モーダル遷移確率行列を通じて、タスクに最も適したモーダル性についての洞察を提供する。
さらに,局所化特徴フィルタリングによる文脈固有知識マッピングの統計的解釈手法を提案する。
先駆的解析は学習機構の探索を提供し,分子科学におけるslmの進歩への道を開く。
関連論文リスト
- Molecular Graph Representation Learning Integrating Large Language Models with Domain-specific Small Models [12.744381867301353]
大規模言語モデルとドメイン固有小モデルを統合する新しい分子グラフ表現学習フレームワークを提案する。
分子グラフとそれに対応する記述文を含む多モードアライメント法を用いて、分子表現の事前学習を誘導する。
論文 参考訳(メタデータ) (2024-08-19T16:11:59Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Bridging Text and Molecule: A Survey on Multimodal Frameworks for Molecule [16.641797535842752]
本稿では,分子研究のためのマルチモーダルフレームワークに関する最初の体系的研究について述べる。
分子深層学習の発展から始まり、テキストモダリティの関与の必要性を指摘する。
さらに, 大規模言語モデルの利用, 分子課題の促進, 創薬における重要な応用について検討した。
論文 参考訳(メタデータ) (2024-03-07T03:03:13Z) - MolTC: Towards Molecular Relational Modeling In Language Models [28.960416816491392]
分子間相互作用予測のための新しい枠組みとして,分子間相互作用予測法(分子間相互作用予測法)を提案する。
我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-06T07:51:56Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Less is More: A Call to Focus on Simpler Models in Genetic Programming
for Interpretable Machine Learning [1.0323063834827415]
解釈可能性(interpretability)は、ハイテイクなアプリケーションにおける機械学習モデルの安全かつ責任ある使用に不可欠である。
GP for IMLの研究は、低複雑さモデルにおける探索に重点を置く必要があると我々は主張する。
論文 参考訳(メタデータ) (2022-04-05T08:28:07Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Knowledge-informed Molecular Learning: A Survey on Paradigm Transfer [20.893861195128643]
機械学習、特にディープラーニングは、生化学領域における分子研究を著しく推進している。
伝統的に、そのような研究のためのモデリングは、いくつかのパラダイムを中心に行われてきた。
純粋にデータ駆動モデルの生成と解読性を高めるため、研究者はこれらの分子研究モデルに生化学的ドメイン知識を組み込んだ。
論文 参考訳(メタデータ) (2022-02-17T06:18:02Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。