論文の概要: A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and
Function Predictions
- arxiv url: http://arxiv.org/abs/2310.03281v1
- Date: Thu, 5 Oct 2023 03:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:29:44.563687
- Title: A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and
Function Predictions
- Title(参考訳): 翻訳されていないmRNA領域と関数予測のための5' UTR言語モデル
- Authors: Yanyi Chu, Dan Yu, Yupeng Li, Kaixuan Huang, Yue Shen, Le Cong, Jason
Zhang, Mengdi Wang
- Abstract要約: 5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の調節において重要な役割を担っている。
本稿では,5' UTR の言語モデルを紹介し,それを UTR-LM と呼ぶ。
このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。
- 参考スコア(独自算出の注目度): 39.54284059106283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 5' UTR, a regulatory region at the beginning of an mRNA molecule, plays a
crucial role in regulating the translation process and impacts the protein
expression level. Language models have showcased their effectiveness in
decoding the functions of protein and genome sequences. Here, we introduced a
language model for 5' UTR, which we refer to as the UTR-LM. The UTR-LM is
pre-trained on endogenous 5' UTRs from multiple species and is further
augmented with supervised information including secondary structure and minimum
free energy. We fine-tuned the UTR-LM in a variety of downstream tasks. The
model outperformed the best-known benchmark by up to 42% for predicting the
Mean Ribosome Loading, and by up to 60% for predicting the Translation
Efficiency and the mRNA Expression Level. The model also applies to identifying
unannotated Internal Ribosome Entry Sites within the untranslated region and
improves the AUPR from 0.37 to 0.52 compared to the best baseline. Further, we
designed a library of 211 novel 5' UTRs with high predicted values of
translation efficiency and evaluated them via a wet-lab assay. Experiment
results confirmed that our top designs achieved a 32.5% increase in protein
production level relative to well-established 5' UTR optimized for
therapeutics.
- Abstract(参考訳): 5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の制御において重要な役割を担い、タンパク質の発現レベルに影響を与える。
言語モデルは、タンパク質およびゲノム配列の機能の復号化においてその効果を示した。
本稿では,5' UTR の言語モデルを導入し,それを UTR-LM と呼ぶ。
UTR-LMは複数の種の内因性5' UTRで事前訓練され、二次構造や最小自由エネルギーを含む教師付き情報によってさらに増強される。
UTR-LMを様々な下流タスクで微調整した。
このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。
このモデルはまた、未翻訳領域内で未記載のリボソームエントリサイトを識別し、最高のベースラインに比べてAUPRを0.37から0.52に改善する。
さらに,翻訳効率の予測値の高い211個の新規5' UTRのライブラリを設計し,ウェットラブ法による評価を行った。
実験の結果, 治療に最適化された5' UTRと比較して, トップデザインのタンパク質生産量は32.5%増加した。
関連論文リスト
- Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。
調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。
私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-11-04T14:58:37Z) - Latent Diffusion Models for Controllable RNA Sequence Generation [33.38594748558547]
RNAはDNAとタンパク質の間の重要な中間体であり、高い配列の多様性と複雑な3次元構造を示す。
可変長の離散RNA配列の生成と最適化のための潜時拡散モデルを開発した。
実験の結果、RNA拡散は様々な生物学的指標の自然な分布と一致した非コードRNAを生成することが確認された。
論文 参考訳(メタデータ) (2024-09-15T19:04:50Z) - mRNA2vec: mRNA Embedding with Language Model in the 5'UTR-CDS for mRNA Design [0.4999814847776097]
本稿では,新しい文脈言語モデル(LM)に基づく埋め込み手法mRNA2vecを提案する。
既存のmRNA埋め込み手法とは対照的に,本手法はData2vecの自己教師型学習フレームワークをベースとしている。
mRNA2vecは翻訳効率(TE)と発現レベル(EL)予測タスクを大幅に改善している。
論文 参考訳(メタデータ) (2024-08-16T23:23:40Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing [2.747785739760799]
計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
残余ごとの予測では、最も情報に富んだ埋め込み(ProtT5)の転送は、進化的な情報を用いることなく、初めて最先端技術を上回った。
論文 参考訳(メタデータ) (2020-07-13T07:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。