論文の概要: Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey
- arxiv url: http://arxiv.org/abs/2403.01528v2
- Date: Tue, 5 Mar 2024 11:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 20:54:10.149489
- Title: Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey
- Title(参考訳): マルチモーダル学習による生物分子と自然言語の活用
- Authors: Qizhi Pei, Lijun Wu, Kaiyuan Gao, Jinhua Zhu, Yue Wang, Zun Wang, Tao
Qin, and Rui Yan
- Abstract要約: 生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
- 参考スコア(独自算出の注目度): 75.47055414002571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of biomolecular modeling with natural language (BL) has
emerged as a promising interdisciplinary area at the intersection of artificial
intelligence, chemistry and biology. This approach leverages the rich,
multifaceted descriptions of biomolecules contained within textual data sources
to enhance our fundamental understanding and enable downstream computational
tasks such as biomolecule property prediction. The fusion of the nuanced
narratives expressed through natural language with the structural and
functional specifics of biomolecules described via various molecular modeling
techniques opens new avenues for comprehensively representing and analyzing
biomolecules. By incorporating the contextual language data that surrounds
biomolecules into their modeling, BL aims to capture a holistic view
encompassing both the symbolic qualities conveyed through language as well as
quantitative structural characteristics. In this review, we provide an
extensive analysis of recent advancements achieved through cross modeling of
biomolecules and natural language. (1) We begin by outlining the technical
representations of biomolecules employed, including sequences, 2D graphs, and
3D structures. (2) We then examine in depth the rationale and key objectives
underlying effective multi-modal integration of language and molecular data
sources. (3) We subsequently survey the practical applications enabled to date
in this developing research area. (4) We also compile and summarize the
available resources and datasets to facilitate future work. (5) Looking ahead,
we identify several promising research directions worthy of further exploration
and investment to continue advancing the field. The related resources and
contents are updating in
\url{https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling}.
- Abstract(参考訳): 生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
このアプローチは、テキストデータソースに含まれる生体分子のリッチで多面的な記述を活用し、基本的理解を高め、生体分子特性予測のような下流の計算タスクを可能にする。
様々な分子モデリング技術によって記述された生体分子の構造的および機能的特徴と自然言語で表現されたニュアンス的な物語が融合することで、生体分子を包括的に表現し分析するための新しい道が開かれた。
バイオ分子を囲む文脈言語データをモデリングに組み込むことで、BLは言語を通して伝達される象徴的特性と定量的構造的特性の両方を包含する全体像を捉えることを目指している。
本稿では,生物分子と自然言語の相互モデリングによって得られた最近の進歩を広範囲に分析する。
1) 塩基配列, 2次元グラフ, 3次元構造を含む生体分子の技術的表現を概説することから始める。
2) 言語と分子データソースの効果的なマルチモーダル統合の基礎となる理論的および重要な目的について検討する。
(3)本研究分野において現在までに実現されている実践的応用について調査する。
(4) 今後の作業を容易にするために利用可能なリソースやデータセットをコンパイルして要約する。
(5)今後,この分野の進展を続けるために,さらなる調査と投資に値する有望な研究の方向性を見いだす。
関連リソースと内容は \url{https://github.com/QizhiPei/Awesome-Biomolecule-Language-Cross-Modeling} で更新されている。
関連論文リスト
- MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - Bridging Text and Molecule: A Survey on Multimodal Frameworks for Molecule [16.641797535842752]
本稿では,分子研究のためのマルチモーダルフレームワークに関する最初の体系的研究について述べる。
分子深層学習の発展から始まり、テキストモダリティの関与の必要性を指摘する。
さらに, 大規模言語モデルの利用, 分子課題の促進, 創薬における重要な応用について検討した。
論文 参考訳(メタデータ) (2024-03-07T03:03:13Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - BioT5: Enriching Cross-modal Integration in Biology with Chemical
Knowledge and Natural Language Associations [54.97423244799579]
$mathbfBioT5$は、化学知識と自然言語の関連性によって生物学のクロスモーダルな統合を強化する事前学習フレームワークである。
$mathbfBioT5$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。
論文 参考訳(メタデータ) (2023-10-11T07:57:08Z) - Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。
この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文 参考訳(メタデータ) (2023-06-21T02:05:48Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。