論文の概要: Bio-xLSTM: Generative modeling, representation and in-context learning of biological and chemical sequences
- arxiv url: http://arxiv.org/abs/2411.04165v1
- Date: Wed, 06 Nov 2024 18:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:39:25.241086
- Title: Bio-xLSTM: Generative modeling, representation and in-context learning of biological and chemical sequences
- Title(参考訳): Bio-xLSTM:生物および化学配列の生成的モデリング、表現および文脈内学習
- Authors: Niklas Schmidinger, Lisa Schneckenreiter, Philipp Seidl, Johannes Schimunek, Pieter-Jan Hoedt, Johannes Brandstetter, Andreas Mayr, Sohvi Luukkonen, Sepp Hochreiter, Günter Klambauer,
- Abstract要約: 生物学的および化学的配列の言語モデルは、薬物発見、タンパク質工学、精密医療などの重要な応用を可能にする。
トランスフォーマーは印象的な結果を得たが、その配列長に対する二次的な実行時依存は、タンパク質や化学配列の長いゲノム配列や文脈内学習に使用するのを複雑にしている。
本稿では,これらの領域に対してxLSTMを調整し,Bio-xLSTMと呼ばれるアーキテクチャの組を提案する。
- 参考スコア(独自算出の注目度): 15.399780610737947
- License:
- Abstract: Language models for biological and chemical sequences enable crucial applications such as drug discovery, protein engineering, and precision medicine. Currently, these language models are predominantly based on Transformer architectures. While Transformers have yielded impressive results, their quadratic runtime dependency on the sequence length complicates their use for long genomic sequences and in-context learning on proteins and chemical sequences. Recently, the recurrent xLSTM architecture has been shown to perform favorably compared to Transformers and modern state-space model (SSM) architectures in the natural language domain. Similar to SSMs, xLSTMs have a linear runtime dependency on the sequence length and allow for constant-memory decoding at inference time, which makes them prime candidates for modeling long-range dependencies in biological and chemical sequences. In this work, we tailor xLSTM towards these domains and propose a suite of architectural variants called Bio-xLSTM. Extensive experiments in three large domains, genomics, proteins, and chemistry, were performed to assess xLSTM's ability to model biological and chemical sequences. The results show that models based on Bio-xLSTM a) can serve as proficient generative models for DNA, protein, and chemical sequences, b) learn rich representations for those modalities, and c) can perform in-context learning for proteins and small molecules.
- Abstract(参考訳): 生物学的および化学的配列の言語モデルは、薬物発見、タンパク質工学、精密医療などの重要な応用を可能にする。
現在、これらの言語モデルは、主にTransformerアーキテクチャに基づいている。
トランスフォーマーは印象的な結果を得たが、配列長に対する二次的な実行時依存は、長いゲノム配列とタンパク質や化学配列のテキスト内学習に複雑である。
近年、リカレントxLSTMアーキテクチャは、自然言語領域におけるトランスフォーマーや現代の状態空間モデル(SSM)アーキテクチャと比較して好適に機能することが示されている。
SSMと同様に、xLSTMはシーケンス長に線形な実行時依存を持ち、推論時に一定のメモリデコードを可能にするため、生物学的および化学的な配列における長距離依存をモデル化するための主要な候補となる。
本稿では,これらの領域に対してxLSTMを調整し,Bio-xLSTMと呼ばれるアーキテクチャの組を提案する。
xLSTMの生物学的および化学的配列をモデル化する能力を評価するために、ゲノム、タンパク質、化学の3つの大きな領域での大規模な実験が行われた。
その結果,Bio-xLSTMに基づくモデルが得られた。
a)DNA、タンパク質、化学配列の成熟した生成モデルとして機能することができる。
b)これらのモダリティについて豊かな表現を学び、
c) タンパク質や小分子の文脈学習を行うことができる。
関連論文リスト
- NatureLM: Deciphering the Language of Nature for Scientific Discovery [105.57567762153462]
基礎モデルは自然言語処理と人工知能に革命をもたらした。
科学発見のためのシーケンスベース科学基盤モデルであるNature Language Model(略してNatureLM)を紹介する。
論文 参考訳(メタデータ) (2025-02-11T13:08:03Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Genomic Language Models: Opportunities and Challenges [0.2912705470788796]
ゲノム言語モデル(gLM)は、ゲノムの理解を大幅に前進させる可能性がある。
本稿では,機能制約予測,シーケンス設計,伝達学習など,gLMのキーとなる応用について紹介する。
本稿では,gLMの開発と評価について論じる。
論文 参考訳(メタデータ) (2024-07-16T06:57:35Z) - Accurate Machine Learned Quantum-Mechanical Force Fields for
Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。
近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。
本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-17T13:08:28Z) - Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。
細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。
ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文 参考訳(メタデータ) (2021-12-14T17:23:42Z) - Accelerated Simulations of Molecular Systems through Learning of their
Effective Dynamics [4.276697874428501]
本稿では,最大3桁のシミュレーションを行うための新しい枠組みを提案する。
ledは分子系の効果的なダイナミクスを学ぶ。
我々は、M"ueller-Brown電位、Trp Cageタンパク質、およびアラニンジペプチドにおけるLEDの有効性を実証する。
論文 参考訳(メタデータ) (2021-02-17T15:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。