論文の概要: Bio-xLSTM: Generative modeling, representation and in-context learning of biological and chemical sequences
- arxiv url: http://arxiv.org/abs/2411.04165v1
- Date: Wed, 06 Nov 2024 18:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:25.241086
- Title: Bio-xLSTM: Generative modeling, representation and in-context learning of biological and chemical sequences
- Title(参考訳): Bio-xLSTM:生物および化学配列の生成的モデリング、表現および文脈内学習
- Authors: Niklas Schmidinger, Lisa Schneckenreiter, Philipp Seidl, Johannes Schimunek, Pieter-Jan Hoedt, Johannes Brandstetter, Andreas Mayr, Sohvi Luukkonen, Sepp Hochreiter, Günter Klambauer,
- Abstract要約: 生物学的および化学的配列の言語モデルは、薬物発見、タンパク質工学、精密医療などの重要な応用を可能にする。
トランスフォーマーは印象的な結果を得たが、その配列長に対する二次的な実行時依存は、タンパク質や化学配列の長いゲノム配列や文脈内学習に使用するのを複雑にしている。
本稿では,これらの領域に対してxLSTMを調整し,Bio-xLSTMと呼ばれるアーキテクチャの組を提案する。
- 参考スコア(独自算出の注目度): 15.399780610737947
- License:
- Abstract: Language models for biological and chemical sequences enable crucial applications such as drug discovery, protein engineering, and precision medicine. Currently, these language models are predominantly based on Transformer architectures. While Transformers have yielded impressive results, their quadratic runtime dependency on the sequence length complicates their use for long genomic sequences and in-context learning on proteins and chemical sequences. Recently, the recurrent xLSTM architecture has been shown to perform favorably compared to Transformers and modern state-space model (SSM) architectures in the natural language domain. Similar to SSMs, xLSTMs have a linear runtime dependency on the sequence length and allow for constant-memory decoding at inference time, which makes them prime candidates for modeling long-range dependencies in biological and chemical sequences. In this work, we tailor xLSTM towards these domains and propose a suite of architectural variants called Bio-xLSTM. Extensive experiments in three large domains, genomics, proteins, and chemistry, were performed to assess xLSTM's ability to model biological and chemical sequences. The results show that models based on Bio-xLSTM a) can serve as proficient generative models for DNA, protein, and chemical sequences, b) learn rich representations for those modalities, and c) can perform in-context learning for proteins and small molecules.
- Abstract(参考訳): 生物学的および化学的配列の言語モデルは、薬物発見、タンパク質工学、精密医療などの重要な応用を可能にする。
現在、これらの言語モデルは、主にTransformerアーキテクチャに基づいている。
トランスフォーマーは印象的な結果を得たが、配列長に対する二次的な実行時依存は、長いゲノム配列とタンパク質や化学配列のテキスト内学習に複雑である。
近年、リカレントxLSTMアーキテクチャは、自然言語領域におけるトランスフォーマーや現代の状態空間モデル(SSM)アーキテクチャと比較して好適に機能することが示されている。
SSMと同様に、xLSTMはシーケンス長に線形な実行時依存を持ち、推論時に一定のメモリデコードを可能にするため、生物学的および化学的な配列における長距離依存をモデル化するための主要な候補となる。
本稿では,これらの領域に対してxLSTMを調整し,Bio-xLSTMと呼ばれるアーキテクチャの組を提案する。
xLSTMの生物学的および化学的配列をモデル化する能力を評価するために、ゲノム、タンパク質、化学の3つの大きな領域での大規模な実験が行われた。
その結果,Bio-xLSTMに基づくモデルが得られた。
a)DNA、タンパク質、化学配列の成熟した生成モデルとして機能することができる。
b)これらのモダリティについて豊かな表現を学び、
c) タンパク質や小分子の文脈学習を行うことができる。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [54.51932175059004]
本稿では,大規模言語モデルのコード生成能力を高めるために,合成命令を生成するスケーラブルな手法を提案する。
提案したアルゴリズムは進化過程を模倣し、自己インストラクションを利用して限られた数の種子から多数の合成サンプルを生成する。
論文 参考訳(メタデータ) (2024-07-29T20:42:59Z) - Genomic Language Models: Opportunities and Challenges [0.2912705470788796]
ゲノム言語モデル(gLM)は、ゲノムの理解を大幅に前進させる可能性がある。
本稿では,機能制約予測,シーケンス設計,伝達学習など,gLMのキーとなる応用について紹介する。
本稿では,gLMの開発と評価について論じる。
論文 参考訳(メタデータ) (2024-07-16T06:57:35Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - LLamol: A Dynamic Multi-Conditional Generative Transformer for De Novo
Molecular Design [0.0]
LLamolはLLama 2アーキテクチャに基づいた単一の新しい生成トランスフォーマーモデルである。
モデルが最大4つの条件で単一条件および多条件の有機分子生成を順応的に処理できることを実証する。
より詳しくは,個別に,あるいは数値特性と組み合わせて,トークンシーケンスを条件付けに活用するモデルの能力について紹介する。
論文 参考訳(メタデータ) (2023-11-24T10:59:12Z) - nach0: Multimodal Natural and Chemical Languages Foundation Model [7.815497069231599]
本稿では, 様々な化学的・生物学的課題を解決できる新しい基礎モデルであるnach0を紹介する。
nach0は、科学文献、特許、分子文字列の未ラベルテキストで事前訓練されたマルチドメインおよびマルチタスクエンコーダLLMである。
論文 参考訳(メタデータ) (2023-11-21T07:56:30Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Accelerated Simulations of Molecular Systems through Learning of their
Effective Dynamics [4.276697874428501]
本稿では,最大3桁のシミュレーションを行うための新しい枠組みを提案する。
ledは分子系の効果的なダイナミクスを学ぶ。
我々は、M"ueller-Brown電位、Trp Cageタンパク質、およびアラニンジペプチドにおけるLEDの有効性を実証する。
論文 参考訳(メタデータ) (2021-02-17T15:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。