論文の概要: A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and
Function Predictions
- arxiv url: http://arxiv.org/abs/2310.03281v1
- Date: Thu, 5 Oct 2023 03:15:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:29:44.563687
- Title: A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and
Function Predictions
- Title(参考訳): 翻訳されていないmRNA領域と関数予測のための5' UTR言語モデル
- Authors: Yanyi Chu, Dan Yu, Yupeng Li, Kaixuan Huang, Yue Shen, Le Cong, Jason
Zhang, Mengdi Wang
- Abstract要約: 5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の調節において重要な役割を担っている。
本稿では,5' UTR の言語モデルを紹介し,それを UTR-LM と呼ぶ。
このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。
- 参考スコア(独自算出の注目度): 39.54284059106283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 5' UTR, a regulatory region at the beginning of an mRNA molecule, plays a
crucial role in regulating the translation process and impacts the protein
expression level. Language models have showcased their effectiveness in
decoding the functions of protein and genome sequences. Here, we introduced a
language model for 5' UTR, which we refer to as the UTR-LM. The UTR-LM is
pre-trained on endogenous 5' UTRs from multiple species and is further
augmented with supervised information including secondary structure and minimum
free energy. We fine-tuned the UTR-LM in a variety of downstream tasks. The
model outperformed the best-known benchmark by up to 42% for predicting the
Mean Ribosome Loading, and by up to 60% for predicting the Translation
Efficiency and the mRNA Expression Level. The model also applies to identifying
unannotated Internal Ribosome Entry Sites within the untranslated region and
improves the AUPR from 0.37 to 0.52 compared to the best baseline. Further, we
designed a library of 211 novel 5' UTRs with high predicted values of
translation efficiency and evaluated them via a wet-lab assay. Experiment
results confirmed that our top designs achieved a 32.5% increase in protein
production level relative to well-established 5' UTR optimized for
therapeutics.
- Abstract(参考訳): 5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の制御において重要な役割を担い、タンパク質の発現レベルに影響を与える。
言語モデルは、タンパク質およびゲノム配列の機能の復号化においてその効果を示した。
本稿では,5' UTR の言語モデルを導入し,それを UTR-LM と呼ぶ。
UTR-LMは複数の種の内因性5' UTRで事前訓練され、二次構造や最小自由エネルギーを含む教師付き情報によってさらに増強される。
UTR-LMを様々な下流タスクで微調整した。
このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。
このモデルはまた、未翻訳領域内で未記載のリボソームエントリサイトを識別し、最高のベースラインに比べてAUPRを0.37から0.52に改善する。
さらに,翻訳効率の予測値の高い211個の新規5' UTRのライブラリを設計し,ウェットラブ法による評価を行った。
実験の結果, 治療に最適化された5' UTRと比較して, トップデザインのタンパク質生産量は32.5%増加した。
関連論文リスト
- Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Directed Acyclic Transformer Pre-training for High-quality
Non-autoregressive Text Generation [98.37871690400766]
非AutoRegressive (NAR) テキスト生成モデルは、デコード速度が大幅に速く、機械翻訳の質が良いため、多くの注目を集めている。
既存のNARモデルは適切な事前訓練を欠いており、まだ訓練済みの自己回帰モデルよりはるかに遅れている。
我々は,NAR生成における予測整合性を促進するために,事前訓練された非巡回変圧器を提案する。
論文 参考訳(メタデータ) (2023-04-24T02:30:33Z) - Semi-supervised Neural Machine Translation with Consistency
Regularization for Low-Resource Languages [3.475371300689165]
本稿では,高品質な文ペアを増補し,半教師付き方式でNMTモデルを訓練することにより,低リソース言語の問題に対処する,シンプルかつ効果的な手法を提案する。
具体的には、教師あり学習におけるクロスエントロピー損失と、疑似および拡張的対象文が与えられた教師なしのファッションにおけるKLディバージェンスを組み合わせる。
実験の結果,提案手法はNMTベースライン,特に0.46-2.03BLEUスコアを持つ低リソースデータセットにおいて,NMTベースラインを大幅に改善することが示された。
論文 参考訳(メタデータ) (2023-04-02T15:24:08Z) - Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。
pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。
実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2023-02-03T10:49:52Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。
特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。
REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文 参考訳(メタデータ) (2021-12-09T00:29:19Z) - ProtTrans: Towards Cracking the Language of Life's Code Through
Self-Supervised Deep Learning and High Performance Computing [2.747785739760799]
計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。
そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。
残余ごとの予測では、最も情報に富んだ埋め込み(ProtT5)の転送は、進化的な情報を用いることなく、初めて最先端技術を上回った。
論文 参考訳(メタデータ) (2020-07-13T07:54:20Z) - Improving Non-autoregressive Neural Machine Translation with Monolingual
Data [13.43438045177293]
非自己回帰(NAR)ニューラルマシン翻訳は通常、自己回帰(AR)モデルからの知識蒸留によって行われる。
大規模単言語コーパスを用いてNARモデルの性能を向上する。
論文 参考訳(メタデータ) (2020-05-02T22:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。