Fugu-MT 論文翻訳(概要): A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions

論文の概要: A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions

arxiv url: http://arxiv.org/abs/2310.03281v1
Date: Thu, 5 Oct 2023 03:15:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 19:29:44.563687
Title: A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions
Title（参考訳）: 翻訳されていないmRNA領域と関数予測のための5' UTR言語モデル
Authors: Yanyi Chu, Dan Yu, Yupeng Li, Kaixuan Huang, Yue Shen, Le Cong, Jason Zhang, Mengdi Wang
Abstract要約: 5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の調節において重要な役割を担っている。本稿では,5' UTR の言語モデルを紹介し,それを UTR-LM と呼ぶ。このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。
参考スコア（独自算出の注目度）: 39.54284059106283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The 5' UTR, a regulatory region at the beginning of an mRNA molecule, plays a crucial role in regulating the translation process and impacts the protein expression level. Language models have showcased their effectiveness in decoding the functions of protein and genome sequences. Here, we introduced a language model for 5' UTR, which we refer to as the UTR-LM. The UTR-LM is pre-trained on endogenous 5' UTRs from multiple species and is further augmented with supervised information including secondary structure and minimum free energy. We fine-tuned the UTR-LM in a variety of downstream tasks. The model outperformed the best-known benchmark by up to 42% for predicting the Mean Ribosome Loading, and by up to 60% for predicting the Translation Efficiency and the mRNA Expression Level. The model also applies to identifying unannotated Internal Ribosome Entry Sites within the untranslated region and improves the AUPR from 0.37 to 0.52 compared to the best baseline. Further, we designed a library of 211 novel 5' UTRs with high predicted values of translation efficiency and evaluated them via a wet-lab assay. Experiment results confirmed that our top designs achieved a 32.5% increase in protein production level relative to well-established 5' UTR optimized for therapeutics.
Abstract（参考訳）: 5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の制御において重要な役割を担い、タンパク質の発現レベルに影響を与える。言語モデルは、タンパク質およびゲノム配列の機能の復号化においてその効果を示した。本稿では,5' UTR の言語モデルを導入し,それを UTR-LM と呼ぶ。 UTR-LMは複数の種の内因性5' UTRで事前訓練され、二次構造や最小自由エネルギーを含む教師付き情報によってさらに増強される。 UTR-LMを様々な下流タスクで微調整した。このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。このモデルはまた、未翻訳領域内で未記載のリボソームエントリサイトを識別し、最高のベースラインに比べてAUPRを0.37から0.52に改善する。さらに,翻訳効率の予測値の高い211個の新規5' UTRのライブラリを設計し,ウェットラブ法による評価を行った。実験の結果, 治療に最適化された5' UTRと比較して, トップデザインのタンパク質生産量は32.5%増加した。

関連論文リスト

Decoding Translation-Related Functional Sequences in 5'UTRs Using Interpretable Deep Learning Models [0.0]
UTR-STCNetは可変長5'UTRの柔軟かつ生物学的基盤モデリングのためのトランスフォーマーベースのアーキテクチャである。 Saliency-Aware Token Clustering (SATC)モジュールは、サリエンシスコアに基づいて、ヌクレオチドトークンを有意義な単位に反復的に集約する。 Saliency-Guided Transformer(SGT)ブロックは、軽量なアテンション機構を使用して、ローカルおよび遠位規制の依存関係をキャプチャする。
論文参考訳（メタデータ） (2025-07-22T17:51:13Z)
A New Deep-learning-Based Approach For mRNA Optimization: High Fidelity, Computation Efficiency, and Multiple Optimization Factors [12.26159226306187]
我々は,mRNA最適化のための新しい深層学習手法である textbfRNop を紹介する。我々は,300万以上のシーケンスを含む大規模データセットを収集し,GPLoss,CAILoss,tAILoss,MFELossという4つの特別な損失関数を設計する。 RNopはハイシークエンスを保証し、47.32シークエンス/秒までの計算スループットを実現し、最適化されたmRNAシークエンスを生成する。
論文参考訳（メタデータ） (2025-05-29T08:21:11Z)
Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics [3.2508287756500165]
mRNAベースのワクチンは製薬業界において主要な焦点となっている。この性質のためにmRNA配列を最適化するのは難しい課題ですこれらの課題に対処するために、構造化された状態空間ベースおよび注目ハイブリッドモデルであるHelix-mRNAを提案する。
論文参考訳（メタデータ） (2025-02-19T14:51:41Z)
LoRA-BERT: a Natural Language Processing Model for Robust and Accurate Prediction of long non-coding RNAs [11.346750562942345]
長い非コードRNA(lncRNA)は多くの生物学的プロセスにおいて重要な調節因子である。深層学習に基づくアプローチは、lncRNAを分類するために導入された。 LoRA-BERTは配列分類におけるヌクレオチドレベルの情報の重要性を捉えるように設計されている。
論文参考訳（メタデータ） (2024-11-11T22:17:01Z)
Training Compute-Optimal Protein Language Models [48.79416103951816]
ほとんどのタンパク質言語モデルは、パフォーマンスが高くなるまで広範囲の計算資源で訓練されている。調査は、9億3900万のタンパク質配列からなる膨大なデータセットに基づいて行われた。私たちは、350万から107億のパラメータから5から200億のユニークなトークンまで、300以上のモデルをトレーニングしました。
論文参考訳（メタデータ） (2024-11-04T14:58:37Z)
Latent Diffusion Models for Controllable RNA Sequence Generation [33.38594748558547]
RNAはDNAとタンパク質の間の重要な中間体であり、高い配列の多様性と複雑な3次元構造を示す。可変長の離散RNA配列の生成と最適化のための潜時拡散モデルを開発した。実験の結果、RNA拡散は様々な生物学的指標の自然な分布と一致した非コードRNAを生成することが確認された。
論文参考訳（メタデータ） (2024-09-15T19:04:50Z)
mRNA2vec: mRNA Embedding with Language Model in the 5'UTR-CDS for mRNA Design [0.4999814847776097]
本稿では,新しい文脈言語モデル(LM)に基づく埋め込み手法mRNA2vecを提案する。既存のmRNA埋め込み手法とは対照的に,本手法はData2vecの自己教師型学習フレームワークをベースとしている。 mRNA2vecは翻訳効率(TE)と発現レベル(EL)予測タスクを大幅に改善している。
論文参考訳（メタデータ） (2024-08-16T23:23:40Z)
BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文参考訳（メタデータ） (2024-06-14T19:39:19Z)
Structure-informed Language Models Are Protein Designers [69.70134899296912]
配列ベースタンパク質言語モデル(pLM)の汎用的手法であるLM-Designを提案する。 pLMに軽量な構造アダプターを埋め込んだ構造手術を行い,構造意識を付加した構造手術を行った。実験の結果,我々の手法は最先端の手法よりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2023-02-03T10:49:52Z)
Reprogramming Pretrained Language Models for Protein Sequence Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。 R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-01-05T15:55:18Z)
Accurate RNA 3D structure prediction using a language model-based deep learning approach [50.193512039121984]
RhoFold+はRNA言語モデルに基づくディープラーニング手法で、配列から単一鎖RNAの3次元構造を正確に予測する。 RhoFold+はRNA 3D構造予測のための完全に自動化されたエンドツーエンドパイプラインを提供する。
論文参考訳（メタデータ） (2022-07-04T17:15:35Z)
Recurrent Glimpse-based Decoder for Detection with Transformer [85.64521612986456]
本稿では,Recurrent Glimpse-based deoder (REGO)について紹介する。特に、REGOは多段階のリカレント処理構造を用いて、DETRの注目が徐々に前景オブジェクトに焦点を合わせるのを助ける。 REGOは、異なるDETR検出器の性能を最大7%向上させる。
論文参考訳（メタデータ） (2021-12-09T00:29:19Z)
ProtTrans: Towards Cracking the Language of Life's Code Through Self-Supervised Deep Learning and High Performance Computing [2.747785739760799]
計算生物学とバイオインフォマティクスは、NLPから抽出された言語モデルに理想的なタンパク質配列からの膨大なデータ金鉱を提供する。そこで我々は,最大393億アミノ酸を含むUniRefとBFDのデータに基づいて,2つの自己回帰モデル(Transformer-XL, XLNet)と4つの自己エンコーダモデル(BERT, Albert, Electra, T5)を訓練した。残余ごとの予測では、最も情報に富んだ埋め込み(ProtT5)の転送は、進化的な情報を用いることなく、初めて最先端技術を上回った。
論文参考訳（メタデータ） (2020-07-13T07:54:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。