論文の概要: Lyra: An Efficient and Expressive Subquadratic Architecture for Modeling Biological Sequences
- arxiv url: http://arxiv.org/abs/2503.16351v1
- Date: Thu, 20 Mar 2025 17:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 22:26:56.769510
- Title: Lyra: An Efficient and Expressive Subquadratic Architecture for Modeling Biological Sequences
- Title(参考訳): Lyra: 生物学的シーケンスをモデル化するための効率的で表現力豊かなサブクワッドラアーキテクチャ
- Authors: Krithik Ramesh, Sameed M. Siddiqui, Albert Gu, Michael D. Mitzenmacher, Pardis C. Sabeti,
- Abstract要約: 本稿では, エピスタシスの生物学的枠組みを基盤として, シークエンス・モデリングのためのサブクワッド・アーキテクチャであるLyraを紹介する。
我々は、Lyraが100以上の幅広い生物学的タスクにまたがって性能を発揮し、多くの重要な領域において最先端(SOTA)性能を達成することを実証した。
- 参考スコア(独自算出の注目度): 12.6343176904061
- License:
- Abstract: Deep learning architectures such as convolutional neural networks and Transformers have revolutionized biological sequence modeling, with recent advances driven by scaling up foundation and task-specific models. The computational resources and large datasets required, however, limit their applicability in biological contexts. We introduce Lyra, a subquadratic architecture for sequence modeling, grounded in the biological framework of epistasis for understanding sequence-to-function relationships. Mathematically, we demonstrate that state space models efficiently capture global epistatic interactions and combine them with projected gated convolutions for modeling local relationships. We demonstrate that Lyra is performant across over 100 wide-ranging biological tasks, achieving state-of-the-art (SOTA) performance in many key areas, including protein fitness landscape prediction, biophysical property prediction (e.g. disordered protein region functions) peptide engineering applications (e.g. antibody binding, cell-penetrating peptide prediction), RNA structure analysis, RNA function prediction, and CRISPR guide design. It achieves this with orders-of-magnitude improvements in inference speed and reduction in parameters (up to 120,000-fold in our tests) compared to recent biology foundation models. Using Lyra, we were able to train and run every task in this study on two or fewer GPUs in under two hours, democratizing access to biological sequence modeling at SOTA performance, with potential applications to many fields.
- Abstract(参考訳): 畳み込みニューラルネットワークやトランスフォーマーといったディープラーニングアーキテクチャは、基礎とタスク固有のモデルをスケールアップすることによって、最近の進歩によって生物学的シーケンスモデリングに革命をもたらした。
しかし、計算資源と大量のデータセットは、生物学的文脈における適用性を制限している。
シークエンス・ツー・ファンクショナルな関係を理解するための生物学的枠組みを基盤とした,シークエンス・モデリングのためのサブクワッド・アーキテクチャであるLyraを紹介する。
数学的には、状態空間モデルがグローバルなエピスタティック相互作用を効率的に捉え、局所的な関係をモデル化するための投影されたゲート畳み込みと組み合わせることが示される。
我々は、Lyraが100以上の幅広い生物学的タスクにまたがり、タンパク質適合性ランドスケープ予測、生物物理特性予測(例えば、タンパク質領域の機能不全)ペプチド工学的応用(例えば、抗体結合、細胞透過性ペプチド予測)、RNA構造解析、RNA機能予測、CRISPRガイド設計など、多くの重要な領域において、最先端(SOTA)性能を達成することを実証した。
これは、最近の生物基盤モデルと比較して、推論速度のオーダー・オブ・マグニチュードの改善とパラメータの削減(我々のテストでは最大12万倍)によって達成される。
Lyraを使用することで、2時間以下のGPUですべてのタスクをトレーニングおよび実行することができました。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - MAMMAL -- Molecular Aligned Multi-Modal Architecture and Language [0.24434823694833652]
MAMMALは、大規模生物学的データセットから学習する多目的マルチタスク基盤モデルである。
我々は、幅広い分類、回帰、生成タスクをサポートするプロンプト構文を導入する。
典型的薬物発見パイプライン内の異なるステップにまたがる11種類の下流タスクのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-28T20:45:52Z) - Fine-Tuning Discrete Diffusion Models via Reward Optimization with Applications to DNA and Protein Design [56.957070405026194]
拡散モデルにより生成された軌道全体を通して報酬の直接バックプロパゲーションを可能にするアルゴリズムを提案する。
DRAKESは自然に似ており、高い報酬をもたらすシーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-10-17T15:10:13Z) - The Expressive Leaky Memory Neuron: an Efficient and Expressive Phenomenological Neuron Model Can Solve Long-Horizon Tasks [64.08042492426992]
本稿では,脳皮質ニューロンの生物学的モデルであるExpressive Memory(ELM)ニューロンモデルを紹介する。
ELMニューロンは、上記の入力-出力関係を1万以下のトレーニング可能なパラメータと正確に一致させることができる。
本稿では,Long Range Arena(LRA)データセットなど,時間構造を必要とするタスクで評価する。
論文 参考訳(メタデータ) (2023-06-14T13:34:13Z) - Generative Pretrained Autoregressive Transformer Graph Neural Network
applied to the Analysis and Discovery of Novel Proteins [0.0]
本稿では,タンパク質モデリングにおける複雑な前方および逆問題を解決するために,フレキシブル言語モデルに基づくディープラーニング戦略を適用した。
本モデルを用いて, 二次構造含量(残量レベル, 全体含量), タンパク質溶解度, シークエンシングタスクの予測を行った。
追加タスクを追加することで、モデルが全体的なパフォーマンスを改善するために活用する創発的なシナジーが得られることが分かりました。
論文 参考訳(メタデータ) (2023-05-07T12:30:24Z) - Deep Bayesian Active Learning for Accelerating Stochastic Simulation [74.58219903138301]
Interactive Neural Process(INP)は、シミュレーションとアクティブな学習アプローチのためのディープラーニングフレームワークである。
能動的学習のために,NPベースモデルの潜時空間で計算された新しい取得関数Latent Information Gain (LIG)を提案する。
その結果,STNPは学習環境のベースラインを上回り,LIGは能動学習の最先端を達成していることがわかった。
論文 参考訳(メタデータ) (2021-06-05T01:31:51Z) - Align-gram : Rethinking the Skip-gram Model for Protein Sequence
Analysis [0.8733639720576208]
ベクトル空間において類似の$k$-mersを互いに近接してマッピングできる新しい埋め込みスキームAlign-gramを提案する。
DeepGoPlusのシンプルなベースラインLSTMモデルと非常に複雑なCNNモデルを用いた実験は、タンパク質配列解析のための様々なタイプのディープラーニングアプリケーションを実行する上で、Align-gramの可能性を示している。
論文 参考訳(メタデータ) (2020-12-06T17:04:17Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Interpretable Structured Learning with Sparse Gated Sequence Encoder for
Protein-Protein Interaction Prediction [2.9488233765621295]
アミノ酸配列から情報表現を学習することでタンパク質-タンパク質相互作用(PPI)を予測することは、生物学において難しいが重要な問題である。
我々は、シーケンスのみからPPIをモデル化し、予測するための新しいディープフレームワークを提案する。
本モデルでは,シーケンスからコンテキスト化およびシーケンシャル情報を活用することによってシーケンス表現を学習するための双方向ゲート再帰ユニットを組み込んだ。
論文 参考訳(メタデータ) (2020-10-16T17:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。