論文の概要: Scientific Language Modeling: A Quantitative Review of Large Language
Models in Molecular Science
- arxiv url: http://arxiv.org/abs/2402.04119v1
- Date: Tue, 6 Feb 2024 16:12:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:21:19.374791
- Title: Scientific Language Modeling: A Quantitative Review of Large Language
Models in Molecular Science
- Title(参考訳): 科学言語モデリング:分子科学における大規模言語モデルの定量的評価
- Authors: Pengfei Liu, Jun Tao, Zhixiang Ren
- Abstract要約: 大規模言語モデル(LLM)は、自然言語処理(NLP)の観点から科学的問題に取り組むための新しいアプローチを提供する。
我々は、ChEBI-20-MMというマルチモーダルベンチマークを提案し、モデルとデータモダリティとの互換性と知識獲得を評価する1263の実験を行った。
我々の先駆的な分析は、学習メカニズムを探求し、分子科学におけるSLMの進歩の道を開くものである。
- 参考スコア(独自算出の注目度): 27.874571056109758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient molecular modeling and design are crucial for the discovery and
exploration of novel molecules, and the incorporation of deep learning methods
has revolutionized this field. In particular, large language models (LLMs)
offer a fresh approach to tackle scientific problems from a natural language
processing (NLP) perspective, introducing a research paradigm called scientific
language modeling (SLM). However, two key issues remain: how to quantify the
match between model and data modalities and how to identify the
knowledge-learning preferences of models. To address these challenges, we
propose a multi-modal benchmark, named ChEBI-20-MM, and perform 1263
experiments to assess the model's compatibility with data modalities and
knowledge acquisition. Through the modal transition probability matrix, we
provide insights into the most suitable modalities for tasks. Furthermore, we
introduce a statistically interpretable approach to discover context-specific
knowledge mapping by localized feature filtering. Our pioneering analysis
offers an exploration of the learning mechanism and paves the way for advancing
SLM in molecular science.
- Abstract(参考訳): 効率的な分子モデリングと設計は、新しい分子の発見と探索に不可欠であり、深層学習法の導入はこの分野に革命をもたらした。
特に、大きな言語モデル(LLM)は、自然言語処理(NLP)の観点から科学的問題に取り組むための新しいアプローチを提供し、科学言語モデリング(SLM)と呼ばれる研究パラダイムを導入している。
しかし、モデルとデータモダリティのマッチングを定量化する方法と、モデルの知識-学習の好みを特定する方法の2つの大きな問題が残る。
これらの課題に対処するため、ChEBI-20-MMと呼ばれるマルチモーダルベンチマークを提案し、モデルとデータモダリティとの互換性と知識獲得を評価する1263の実験を行った。
モーダル遷移確率行列を通じて、タスクに最も適したモーダル性についての洞察を提供する。
さらに,局所化特徴フィルタリングによる文脈固有知識マッピングの統計的解釈手法を提案する。
先駆的解析は学習機構の探索を提供し,分子科学におけるslmの進歩への道を開く。
関連論文リスト
- Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - MolTC: Towards Molecular Relational Modeling In Language Models [30.049498855598237]
本研究は,分子間相互作用予測のための新しいマルチモーダルフレームワークであるMollTC(Chain-of-Thought, CoT)理論を提案する。
統合MRLを実現するため、MollTCは、クロスデータセット情報共有のための動的パラメータ共有戦略を革新的に開発している。
我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-06T07:51:56Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Scientific Inference With Interpretable Machine Learning: Analyzing
Models to Learn About Real-World Phenomena [0.0]
解釈可能な機械学習(IML)は、機械学習モデルの振る舞いと特性に関するものである。
我々は、関連する現象特性を把握できるように、IML手法の開発方法を示す。
論文 参考訳(メタデータ) (2022-06-11T10:13:21Z) - Less is More: A Call to Focus on Simpler Models in Genetic Programming
for Interpretable Machine Learning [1.0323063834827415]
解釈可能性(interpretability)は、ハイテイクなアプリケーションにおける機械学習モデルの安全かつ責任ある使用に不可欠である。
GP for IMLの研究は、低複雑さモデルにおける探索に重点を置く必要があると我々は主張する。
論文 参考訳(メタデータ) (2022-04-05T08:28:07Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Knowledge-informed Molecular Learning: A Survey on Paradigm Transfer [20.893861195128643]
機械学習、特にディープラーニングは、生化学領域における分子研究を著しく推進している。
伝統的に、そのような研究のためのモデリングは、いくつかのパラダイムを中心に行われてきた。
純粋にデータ駆動モデルの生成と解読性を高めるため、研究者はこれらの分子研究モデルに生化学的ドメイン知識を組み込んだ。
論文 参考訳(メタデータ) (2022-02-17T06:18:02Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Learning Neural Generative Dynamics for Molecular Conformation
Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。
分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-20T03:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。