論文の概要: Decoding Translation-Related Functional Sequences in 5'UTRs Using Interpretable Deep Learning Models
- arxiv url: http://arxiv.org/abs/2507.16801v1
- Date: Tue, 22 Jul 2025 17:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.240095
- Title: Decoding Translation-Related Functional Sequences in 5'UTRs Using Interpretable Deep Learning Models
- Title(参考訳): 解釈型ディープラーニングモデルを用いた5'UTRにおける翻訳関連関数列の復号化
- Authors: Yuxi Lin, Yaxue Fang, Zehong Zhang, Zhouwu Liu, Siyun Zhong, Fulong Yu,
- Abstract要約: UTR-STCNetは可変長5'UTRの柔軟かつ生物学的基盤モデリングのためのトランスフォーマーベースのアーキテクチャである。
Saliency-Aware Token Clustering (SATC)モジュールは、サリエンシスコアに基づいて、ヌクレオチドトークンを有意義な単位に反復的に集約する。
Saliency-Guided Transformer(SGT)ブロックは、軽量なアテンション機構を使用して、ローカルおよび遠位規制の依存関係をキャプチャする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how 5' untranslated regions (5'UTRs) regulate mRNA translation is critical for controlling protein expression and designing effective therapeutic mRNAs. While recent deep learning models have shown promise in predicting translational efficiency from 5'UTR sequences, most are constrained by fixed input lengths and limited interpretability. We introduce UTR-STCNet, a Transformer-based architecture for flexible and biologically grounded modeling of variable-length 5'UTRs. UTR-STCNet integrates a Saliency-Aware Token Clustering (SATC) module that iteratively aggregates nucleotide tokens into multi-scale, semantically meaningful units based on saliency scores. A Saliency-Guided Transformer (SGT) block then captures both local and distal regulatory dependencies using a lightweight attention mechanism. This combined architecture achieves efficient and interpretable modeling without input truncation or increased computational cost. Evaluated across three benchmark datasets, UTR-STCNet consistently outperforms state-of-the-art baselines in predicting mean ribosome load (MRL), a key proxy for translational efficiency. Moreover, the model recovers known functional elements such as upstream AUGs and Kozak motifs, highlighting its potential for mechanistic insight into translation regulation.
- Abstract(参考訳): 5'非翻訳領域(5'UTRs)がmRNA翻訳を制御しているかを理解することは、タンパク質の発現を制御し、効果的な治療mRNAを設計するために重要である。
最近のディープラーニングモデルでは、5'UTRシーケンスからの翻訳効率の予測が約束されているが、ほとんどの場合、固定された入力長と限定的な解釈可能性によって制限されている。
UTR-STCNetは可変長5'UTRの柔軟かつ生物学的基盤モデリングのためのトランスフォーマーベースのアーキテクチャである。
UTR-STCNetはSaliency-Aware Token Clustering (SATC)モジュールを統合する。
Saliency-Guided Transformer(SGT)ブロックは、軽量なアテンション機構を使用して、ローカルおよび遠位規制の依存関係をキャプチャする。
この組み合わせアーキテクチャは、入力トランケーションや計算コストの増大なしに効率的かつ解釈可能なモデリングを実現する。
UTR-STCNetは3つのベンチマークデータセットで評価され、平均リボソーム負荷(MRL)を予測する上で、最先端のベースラインを一貫して上回る。
さらに、このモデルは上流のAUGやKozakモチーフのような既知の機能的要素を復元し、翻訳規制に関する機械的洞察の可能性を強調している。
関連論文リスト
- SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - A New Deep-learning-Based Approach For mRNA Optimization: High Fidelity, Computation Efficiency, and Multiple Optimization Factors [12.26159226306187]
我々は,mRNA最適化のための新しい深層学習手法である textbfRNop を紹介する。
我々は,300万以上のシーケンスを含む大規模データセットを収集し,GPLoss,CAILoss,tAILoss,MFELossという4つの特別な損失関数を設計する。
RNopはハイシークエンスを保証し、47.32シークエンス/秒までの計算スループットを実現し、最適化されたmRNAシークエンスを生成する。
論文 参考訳(メタデータ) (2025-05-29T08:21:11Z) - FlanEC: Exploring Flan-T5 for Post-ASR Error Correction [25.931773686829796]
音声認識後音声認識(ASR)におけるFlan-T5を利用したエンコーダ・デコーダモデルを提案する。
我々は、n-best仮説を1つの出力文にマッピングすることで、ASR出力を強化するためのGenSECフレームワーク内での適用について検討する。
具体的には、トレーニングデータのスケールアップと多様なデータセットの導入が、ASR後のエラー修正の大幅な改善につながるかどうかを検討する。
論文 参考訳(メタデータ) (2025-01-22T16:06:04Z) - Tensor Product Attention Is All You Need [53.69820973900921]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。
TPAは、メモリ効率とともに改善されたモデル品質を実現する。
TPAに基づいて、シーケンスモデリングのための新しいモデルアーキテクチャであるProduct Attention Transformer(T6)を紹介する。
論文 参考訳(メタデータ) (2025-01-11T03:37:10Z) - MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この研究は、より効率的なByT5の変種であるMrT5(MergeT5)を導入し、トークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
MrT5は、削除されたトークンから重要な情報をよりコンパクトなシーケンスに"マージ"し、残りのトークンからコンテキスト情報を活用する。
MrT5は、XNLI、TyDi QA、文字レベルのタスクなどの下流評価ではByT5に匹敵する精度を示し、シーケンス長を最大75%削減する。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - A 5' UTR Language Model for Decoding Untranslated Regions of mRNA and
Function Predictions [39.54284059106283]
5' UTRはmRNA分子の開始時の調節領域であり、翻訳過程の調節において重要な役割を担っている。
本稿では,5' UTR の言語モデルを紹介し,それを UTR-LM と呼ぶ。
このモデルは、平均リボソーム負荷を予測するために最大42%、翻訳効率とmRNA発現レベルを予測するために最大60%で、最もよく知られたベンチマークを上回った。
論文 参考訳(メタデータ) (2023-10-05T03:15:01Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Tree-structured Attention with Hierarchical Accumulation [103.47584968330325]
階層的累積」は解析木構造を一定時間複雑度で自己注意に符号化する。
提案手法は,4つの IWSLT 翻訳タスクと WMT'14 翻訳タスクにおいて,SOTA 法より優れている。
論文 参考訳(メタデータ) (2020-02-19T08:17:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。