論文の概要: Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics
- arxiv url: http://arxiv.org/abs/2502.13785v1
- Date: Wed, 19 Feb 2025 14:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:14.633165
- Title: Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics
- Title(参考訳): Helix-mRNA:フルシーケンスmRNA治療のためのハイブリッド基礎モデル
- Authors: Matthew Wood, Mathieu Klop, Maxime Allard,
- Abstract要約: mRNAベースのワクチンは製薬業界において主要な焦点となっている。
この性質のためにmRNA配列を最適化するのは 難しい課題です
これらの課題に対処するために、構造化された状態空間ベースおよび注目ハイブリッドモデルであるHelix-mRNAを提案する。
- 参考スコア(独自算出の注目度): 3.2508287756500165
- License:
- Abstract: mRNA-based vaccines have become a major focus in the pharmaceutical industry. The coding sequence as well as the Untranslated Regions (UTRs) of an mRNA can strongly influence translation efficiency, stability, degradation, and other factors that collectively determine a vaccine's effectiveness. However, optimizing mRNA sequences for those properties remains a complex challenge. Existing deep learning models often focus solely on coding region optimization, overlooking the UTRs. We present Helix-mRNA, a structured state-space-based and attention hybrid model to address these challenges. In addition to a first pre-training, a second pre-training stage allows us to specialise the model with high-quality data. We employ single nucleotide tokenization of mRNA sequences with codon separation, ensuring prior biological and structural information from the original mRNA sequence is not lost. Our model, Helix-mRNA, outperforms existing methods in analysing both UTRs and coding region properties. It can process sequences 6x longer than current approaches while using only 10% of the parameters of existing foundation models. Its predictive capabilities extend to all mRNA regions. We open-source the model (https://github.com/helicalAI/helical) and model weights (https://huggingface.co/helical-ai/helix-mRNA).
- Abstract(参考訳): mRNAベースのワクチンは製薬業界において主要な焦点となっている。
mRNAの非翻訳領域(UTR)のコード配列は、翻訳効率、安定性、分解、およびワクチンの有効性を総合的に決定するその他の要因に強く影響を与える。
しかし、これらの性質のためにmRNA配列を最適化することは複雑な課題である。
既存のディープラーニングモデルは、UTRを見下ろしながら、コーディング領域の最適化にのみフォーカスすることが多い。
これらの課題に対処するために、構造化された状態空間ベースおよび注目ハイブリッドモデルであるHelix-mRNAを提案する。
第1の事前訓練に加えて、第2の事前訓練ステージにより、高品質なデータでモデルを専門化できます。
我々は、コドン分離を伴うmRNA配列の単一ヌクレオチドトークン化を用い、元のmRNA配列からの生物学的および構造的情報が失われないようにした。
我々のモデルであるHelix-mRNAは、UTRと符号化領域の特性の両方を分析する既存の手法より優れている。
既存の基盤モデルのパラメータの10%しか使用せず、現在のアプローチよりも6倍長くシーケンスを処理できる。
予測能力はすべてのmRNA領域に及んでいる。
モデル(https://github.com/helicalAI/helical)とモデルウェイト(https://huggingface.co/helical-ai/helix-mRNA)をオープンソースにしています。
関連論文リスト
- LoRA-BERT: a Natural Language Processing Model for Robust and Accurate Prediction of long non-coding RNAs [11.346750562942345]
長い非コードRNA(lncRNA)は多くの生物学的プロセスにおいて重要な調節因子である。
深層学習に基づくアプローチは、lncRNAを分類するために導入された。
LoRA-BERTは配列分類におけるヌクレオチドレベルの情報の重要性を捉えるように設計されている。
論文 参考訳(メタデータ) (2024-11-11T22:17:01Z) - Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - Latent Diffusion Models for Controllable RNA Sequence Generation [33.38594748558547]
RNAはDNAとタンパク質の間の重要な中間体であり、高い配列の多様性と複雑な3次元構造を示す。
可変長の離散RNA配列の生成と最適化のための潜時拡散モデルを開発した。
実験の結果、RNA拡散は様々な生物学的指標の自然な分布と一致した非コードRNAを生成することが確認された。
論文 参考訳(メタデータ) (2024-09-15T19:04:50Z) - mRNA2vec: mRNA Embedding with Language Model in the 5'UTR-CDS for mRNA Design [0.4999814847776097]
本稿では,新しい文脈言語モデル(LM)に基づく埋め込み手法mRNA2vecを提案する。
既存のmRNA埋め込み手法とは対照的に,本手法はData2vecの自己教師型学習フレームワークをベースとしている。
mRNA2vecは翻訳効率(TE)と発現レベル(EL)予測タスクを大幅に改善している。
論文 参考訳(メタデータ) (2024-08-16T23:23:40Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks [1.1764999317813143]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠れコードを明らかにする。
RiNALMoは、これまでで最大のRNA言語モデルであり、6億5千万のパラメータが3600万の非コーディングRNA配列で事前訓練されている。
論文 参考訳(メタデータ) (2024-02-29T14:50:58Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Reprogramming Pretrained Language Models for Antibody Sequence Infilling [72.13295049594585]
抗体の計算設計には、構造的一貫性を維持しながら、新規で多様な配列を生成することが含まれる。
近年のディープラーニングモデルでは優れた結果が得られたが、既知の抗体配列/構造対の数が限られているため、性能が劣化することが多い。
これは、ソース言語でトレーニング済みのモデルを再利用して、異なる言語で、データが少ないタスクに適応するものです。
論文 参考訳(メタデータ) (2022-10-05T20:44:55Z) - Accurate RNA 3D structure prediction using a language model-based deep learning approach [50.193512039121984]
RhoFold+はRNA言語モデルに基づくディープラーニング手法で、配列から単一鎖RNAの3次元構造を正確に予測する。
RhoFold+はRNA 3D構造予測のための完全に自動化されたエンドツーエンドパイプラインを提供する。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。