Fugu-MT 論文翻訳(概要): Bio-xLSTM: Generative modeling, representation and in-context learning of biological and chemical sequences

論文の概要: Bio-xLSTM: Generative modeling, representation and in-context learning of biological and chemical sequences

arxiv url: http://arxiv.org/abs/2411.04165v1
Date: Wed, 06 Nov 2024 18:36:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.098376
Title: Bio-xLSTM: Generative modeling, representation and in-context learning of biological and chemical sequences
Title（参考訳）: Bio-xLSTM:生物および化学配列の生成的モデリング、表現および文脈内学習
Authors: Niklas Schmidinger, Lisa Schneckenreiter, Philipp Seidl, Johannes Schimunek, Pieter-Jan Hoedt, Johannes Brandstetter, Andreas Mayr, Sohvi Luukkonen, Sepp Hochreiter, Günter Klambauer,
Abstract要約: 生物学的および化学的配列の言語モデルは、薬物発見、タンパク質工学、精密医療などの重要な応用を可能にする。トランスフォーマーは印象的な結果を得たが、その配列長に対する二次的な実行時依存は、タンパク質や化学配列の長いゲノム配列や文脈内学習に使用するのを複雑にしている。本稿では,これらの領域に対してxLSTMを調整し,Bio-xLSTMと呼ばれるアーキテクチャの組を提案する。
参考スコア（独自算出の注目度）: 15.399780610737947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models for biological and chemical sequences enable crucial applications such as drug discovery, protein engineering, and precision medicine. Currently, these language models are predominantly based on Transformer architectures. While Transformers have yielded impressive results, their quadratic runtime dependency on the sequence length complicates their use for long genomic sequences and in-context learning on proteins and chemical sequences. Recently, the recurrent xLSTM architecture has been shown to perform favorably compared to Transformers and modern state-space model (SSM) architectures in the natural language domain. Similar to SSMs, xLSTMs have a linear runtime dependency on the sequence length and allow for constant-memory decoding at inference time, which makes them prime candidates for modeling long-range dependencies in biological and chemical sequences. In this work, we tailor xLSTM towards these domains and propose a suite of architectural variants called Bio-xLSTM. Extensive experiments in three large domains, genomics, proteins, and chemistry, were performed to assess xLSTM's ability to model biological and chemical sequences. The results show that models based on Bio-xLSTM a) can serve as proficient generative models for DNA, protein, and chemical sequences, b) learn rich representations for those modalities, and c) can perform in-context learning for proteins and small molecules.
Abstract（参考訳）: 生物学的および化学的配列の言語モデルは、薬物発見、タンパク質工学、精密医療などの重要な応用を可能にする。現在、これらの言語モデルは、主にTransformerアーキテクチャに基づいている。トランスフォーマーは印象的な結果を得たが、配列長に対する二次的な実行時依存は、長いゲノム配列とタンパク質や化学配列のテキスト内学習に複雑である。近年、リカレントxLSTMアーキテクチャは、自然言語領域におけるトランスフォーマーや現代の状態空間モデル(SSM)アーキテクチャと比較して好適に機能することが示されている。 SSMと同様に、xLSTMはシーケンス長に線形な実行時依存を持ち、推論時に一定のメモリデコードを可能にするため、生物学的および化学的な配列における長距離依存をモデル化するための主要な候補となる。本稿では,これらの領域に対してxLSTMを調整し,Bio-xLSTMと呼ばれるアーキテクチャの組を提案する。 xLSTMの生物学的および化学的配列をモデル化する能力を評価するために、ゲノム、タンパク質、化学の3つの大きな領域での大規模な実験が行われた。その結果,Bio-xLSTMに基づくモデルが得られた。 a)DNA、タンパク質、化学配列の成熟した生成モデルとして機能することができる。 b)これらのモダリティについて豊かな表現を学び、 c) タンパク質や小分子の文脈学習を行うことができる。

関連論文リスト

Leveraging State Space Models in Long Range Genomics [1.130790932059036]
長距離依存関係はゲノム構造や機能を理解する上で重要であるが、ほとんどの従来の手法はそれらと競合する。我々は、長距離ゲノミクスモデリングタスクにおいて、2つのSSMにインスパイアされたアーキテクチャをベンチマークすることで、ステートスペースモデル(SSM)を有望な代替手段として検討する。 SSMは、トランスフォーマーのパフォーマンスにマッチし、複数のタスクにまたがる印象的なゼロショット外挿を示し、トレーニング中に見られるものより10倍から100倍長いコンテキストを処理する。
論文参考訳（メタデータ） (2025-04-07T18:34:06Z)
Lyra: An Efficient and Expressive Subquadratic Architecture for Modeling Biological Sequences [12.6343176904061]
本稿では, エピスタシスの生物学的枠組みを基盤として, シークエンス・モデリングのためのサブクワッド・アーキテクチャであるLyraを紹介する。我々は、Lyraが100以上の幅広い生物学的タスクにまたがって性能を発揮し、多くの重要な領域において最先端(SOTA)性能を達成することを実証した。
論文参考訳（メタデータ） (2025-03-20T17:09:18Z)
Nature Language Model: Deciphering the Language of Nature for Scientific Discovery [105.55751854768297]
基礎モデルは自然言語処理と人工知能に革命をもたらした。本研究では,科学発見のためのシーケンスベース科学基盤モデルであるNatureLMを紹介する。
論文参考訳（メタデータ） (2025-02-11T13:08:03Z)
Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [53.488387420073536]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。 Life-Codeは3つのオミクスにまたがる様々なタスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-11T06:53:59Z)
GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。 DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文参考訳（メタデータ） (2025-02-11T05:39:49Z)
Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文参考訳（メタデータ） (2024-12-26T12:12:23Z)
Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文参考訳（メタデータ） (2024-11-03T01:56:15Z)
DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。 DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文参考訳（メタデータ） (2024-10-17T17:20:24Z)
Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions [4.36852565205713]
我々は,これまでで最大のオープンソースマルチオミック基盤モデルについて紹介する。これらのマルチオミクスモデルは、様々な単一オミクス分布間の結合表現を学習可能であることを示す。また,MOMを微調整して,タンパク質-核酸相互作用タスクの最先端結果が得られることを示した。
論文参考訳（メタデータ） (2024-08-29T03:56:40Z)
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models [54.51932175059004]
本稿では,大規模言語モデルのコード生成能力を高めるために,合成命令を生成するスケーラブルな手法を提案する。提案したアルゴリズムは進化過程を模倣し、自己インストラクションを利用して限られた数の種子から多数の合成サンプルを生成する。
論文参考訳（メタデータ） (2024-07-29T20:42:59Z)
Genomic Language Models: Opportunities and Challenges [0.2912705470788796]
ゲノム言語モデル(gLM)は、ゲノムの理解を大幅に前進させる可能性がある。本稿では,機能制約予測,シーケンス設計,伝達学習など,gLMのキーとなる応用について紹介する。本稿では,gLMの開発と評価について論じる。
論文参考訳（メタデータ） (2024-07-16T06:57:35Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
LLamol: A Dynamic Multi-Conditional Generative Transformer for De Novo Molecular Design [0.0]
LLamolはLLama 2アーキテクチャに基づいた単一の新しい生成トランスフォーマーモデルである。モデルが最大4つの条件で単一条件および多条件の有機分子生成を順応的に処理できることを実証する。より詳しくは,個別に,あるいは数値特性と組み合わせて,トークンシーケンスを条件付けに活用するモデルの能力について紹介する。
論文参考訳（メタデータ） (2023-11-24T10:59:12Z)
nach0: Multimodal Natural and Chemical Languages Foundation Model [7.815497069231599]
本稿では, 様々な化学的・生物学的課題を解決できる新しい基礎モデルであるnach0を紹介する。 nach0は、科学文献、特許、分子文字列の未ラベルテキストで事前訓練されたマルチドメインおよびマルチタスクエンコーダLLMである。
論文参考訳（メタデータ） (2023-11-21T07:56:30Z)
RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文参考訳（メタデータ） (2023-11-03T07:40:06Z)
Accurate Machine Learned Quantum-Mechanical Force Fields for Biomolecular Simulations [51.68332623405432]
分子動力学(MD)シミュレーションは、化学的および生物学的プロセスに関する原子論的な洞察を可能にする。近年,MDシミュレーションの代替手段として機械学習力場(MLFF)が出現している。本研究は、大規模分子シミュレーションのための正確なMLFFを構築するための一般的なアプローチを提案する。
論文参考訳（メタデータ） (2022-05-17T13:08:28Z)
Epigenomic language models powered by Cerebras [0.0]
エピゲノムBERT(またはEBERT)は、DNA配列とペア化されたエピジェネティック状態の入力の両方に基づいて表現を学習する。細胞型特異的転写因子結合予測タスクにおいて,EBERTの転写学習能力を示す。 ENCODE-DREAMベンチマークから得られた13つの評価データセットのうち4つは、我々の微調整されたモデルであり、挑戦のリーダーボードでは総合3位である。
論文参考訳（メタデータ） (2021-12-14T17:23:42Z)
Accelerated Simulations of Molecular Systems through Learning of their Effective Dynamics [4.276697874428501]
本稿では,最大3桁のシミュレーションを行うための新しい枠組みを提案する。 ledは分子系の効果的なダイナミクスを学ぶ。我々は、M"ueller-Brown電位、Trp Cageタンパク質、およびアラニンジペプチドにおけるLEDの有効性を実証する。
論文参考訳（メタデータ） (2021-02-17T15:15:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。