論文の概要: mRNA2vec: mRNA Embedding with Language Model in the 5'UTR-CDS for mRNA Design
- arxiv url: http://arxiv.org/abs/2408.09048v1
- Date: Fri, 16 Aug 2024 23:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 22:56:40.581657
- Title: mRNA2vec: mRNA Embedding with Language Model in the 5'UTR-CDS for mRNA Design
- Title(参考訳): mRNA2vec:mRNA設計のための5'UTR-CDSの言語モデルを用いたmRNA2vec
- Authors: Honggen Zhang, Xiangrui Gao, June Zhang, Lipeng Lai,
- Abstract要約: 本稿では,新しい文脈言語モデル(LM)に基づく埋め込み手法mRNA2vecを提案する。
既存のmRNA埋め込み手法とは対照的に,本手法はData2vecの自己教師型学習フレームワークをベースとしている。
mRNA2vecは翻訳効率(TE)と発現レベル(EL)予測タスクを大幅に改善している。
- 参考スコア(独自算出の注目度): 0.4999814847776097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Messenger RNA (mRNA)-based vaccines are accelerating the discovery of new drugs and revolutionizing the pharmaceutical industry. However, selecting particular mRNA sequences for vaccines and therapeutics from extensive mRNA libraries is costly. Effective mRNA therapeutics require carefully designed sequences with optimized expression levels and stability. This paper proposes a novel contextual language model (LM)-based embedding method: mRNA2vec. In contrast to existing mRNA embedding approaches, our method is based on the self-supervised teacher-student learning framework of data2vec. We jointly use the 5' untranslated region (UTR) and coding sequence (CDS) region as the input sequences. We adapt our LM-based approach specifically to mRNA by 1) considering the importance of location on the mRNA sequence with probabilistic masking, 2) using Minimum Free Energy (MFE) prediction and Secondary Structure (SS) classification as additional pretext tasks. mRNA2vec demonstrates significant improvements in translation efficiency (TE) and expression level (EL) prediction tasks in UTR compared to SOTA methods such as UTR-LM. It also gives a competitive performance in mRNA stability and protein production level tasks in CDS such as CodonBERT.
- Abstract(参考訳): Messenger RNA(mRNA)ベースのワクチンは新薬の発見を加速し、製薬業界に革命をもたらした。
しかし、幅広いmRNAライブラリーからワクチンや治療のための特定のmRNA配列を選択することはコストがかかる。
効果的なmRNA治療は、最適化された発現レベルと安定性を持つ注意深く設計された配列を必要とする。
本稿では,新しい文脈言語モデル(LM)に基づく埋め込み手法mRNA2vecを提案する。
既存のmRNA埋め込み手法とは対照的に,本手法はData2vecの自己教師型学習フレームワークをベースとしている。
入力シーケンスとして5'非翻訳領域(UTR)とCDS領域を併用する。
LMに基づくアプローチを特にmRNAに適応させる。
1) 確率的マスキングによるmRNA配列上の位置の重要性を考える。
2) 最小自由エネルギー(MFE)予測と二次構造(SS)分類を追加の前提課題として用いた。
mRNA2vecは、UTR-LMのようなSOTA法と比較して、翻訳効率(TE)および発現レベル(EL)予測タスクの大幅な改善を示す。
また、CodonBERTのようなCDSのmRNA安定性とタンパク質生産レベルのタスクにおいて、競合的な性能を与える。
関連論文リスト
- LoRA-BERT: a Natural Language Processing Model for Robust and Accurate Prediction of long non-coding RNAs [11.346750562942345]
長い非コードRNA(lncRNA)は多くの生物学的プロセスにおいて重要な調節因子である。
深層学習に基づくアプローチは、lncRNAを分類するために導入された。
LoRA-BERTは配列分類におけるヌクレオチドレベルの情報の重要性を捉えるように設計されている。
論文 参考訳(メタデータ) (2024-11-11T22:17:01Z) - RNA-GPT: Multimodal Generative System for RNA Sequence Understanding [6.611255836269348]
RNAは生命に不可欠な遺伝情報を運ぶ必須分子である。
この重要性にもかかわらず、RNAの研究はしばしば、この話題で利用可能な膨大な文献によって妨げられている。
本稿では,RNA発見の簡易化を目的としたマルチモーダルRNAチャットモデルであるRNA-GPTを紹介する。
論文 参考訳(メタデータ) (2024-10-29T06:19:56Z) - Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - HELM: Hierarchical Encoding for mRNA Language Modeling [4.990962434274757]
我々は、mRNA言語モデリング(HELM)のための階層的生成アプローチを紹介する。
HELMはコドンの同義性に基づいて損失関数を調節し、モデルの学習過程とmRNA配列の生物学的現実を一致させる。
我々は,多様なmRNAデータセットとタスク上でHELMを評価し,HELMが標準言語モデルの事前学習より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T11:16:47Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and
Function Predictions [39.54284059106283]
5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の調節において重要な役割を担っている。
本稿では,5' UTR の言語モデルを紹介し,それを UTR-LM と呼ぶ。
このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。
論文 参考訳(メタデータ) (2023-10-05T03:15:01Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。