論文の概要: HELM: Hierarchical Encoding for mRNA Language Modeling
- arxiv url: http://arxiv.org/abs/2410.12459v1
- Date: Wed, 16 Oct 2024 11:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:40:49.871950
- Title: HELM: Hierarchical Encoding for mRNA Language Modeling
- Title(参考訳): HELM:mRNA言語モデリングのための階層的エンコーディング
- Authors: Mehdi Yazdani-Jahromi, Mangal Prakash, Tommaso Mansi, Artem Moskalev, Rui Liao,
- Abstract要約: 我々は、mRNA言語モデリング(HELM)のための階層的生成アプローチを紹介する。
HELMはコドンの同義性に基づいて損失関数を調節し、モデルの学習過程とmRNA配列の生物学的現実を一致させる。
我々は,多様なmRNAデータセットとタスク上でHELMを評価し,HELMが標準言語モデルの事前学習より優れていることを示す。
- 参考スコア(独自算出の注目度): 4.990962434274757
- License:
- Abstract: Messenger RNA (mRNA) plays a crucial role in protein synthesis, with its codon structure directly impacting biological properties. While Language Models (LMs) have shown promise in analyzing biological sequences, existing approaches fail to account for the hierarchical nature of mRNA's codon structure. We introduce Hierarchical Encoding for mRNA Language Modeling (HELM), a novel pre-training strategy that incorporates codon-level hierarchical structure into language model training. HELM modulates the loss function based on codon synonymity, aligning the model's learning process with the biological reality of mRNA sequences. We evaluate HELM on diverse mRNA datasets and tasks, demonstrating that HELM outperforms standard language model pre-training as well as existing foundation model baselines on six diverse downstream property prediction tasks and an antibody region annotation tasks on average by around 8\%. Additionally, HELM enhances the generative capabilities of language model, producing diverse mRNA sequences that better align with the underlying true data distribution compared to non-hierarchical baselines.
- Abstract(参考訳): メッセンジャーRNA(mRNA)は、タンパク質合成において重要な役割を担い、コドン構造は生物学的性質に直接影響を及ぼす。
言語モデル(LM)は生物学的配列の解析において有望であるが、既存のアプローチではmRNAのコドン構造の階層的な性質を説明できない。
言語モデルトレーニングにコドンレベルの階層構造を組み込んだ,新しい事前学習戦略であるHyerarchical Encoding for mRNA Language Modeling (HELM)を導入する。
HELMはコドンの同義性に基づいて損失関数を調節し、モデルの学習過程とmRNA配列の生物学的現実を一致させる。
HELMは,6つの下流特性予測タスクと,抗体領域のアノテーションタスクを平均8倍程度に向上させるとともに,標準言語モデルの事前学習に優れることを示す。
さらに、HELMは言語モデルの生成能力を向上し、非階層的なベースラインに比べて基礎となる真のデータ分布と整合する多様なmRNA配列を生成する。
関連論文リスト
- Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - DPLM-2: A Multimodal Diffusion Protein Language Model [75.98083311705182]
DPLM-2は, 離散拡散タンパク質言語モデル(DPLM)を拡張し, 配列と構造の両方に適合する多モーダルタンパク質基盤モデルである。
DPLM-2は、配列と構造、およびその限界と条件の結合分布を学習する。
実験によりDPLM-2は高度に互換性のあるアミノ酸配列とそれに対応する3D構造を同時に生成できることが示された。
論文 参考訳(メタデータ) (2024-10-17T17:20:24Z) - mRNA2vec: mRNA Embedding with Language Model in the 5'UTR-CDS for mRNA Design [0.4999814847776097]
本稿では,新しい文脈言語モデル(LM)に基づく埋め込み手法mRNA2vecを提案する。
既存のmRNA埋め込み手法とは対照的に,本手法はData2vecの自己教師型学習フレームワークをベースとしている。
mRNA2vecは翻訳効率(TE)と発現レベル(EL)予測タスクを大幅に改善している。
論文 参考訳(メタデータ) (2024-08-16T23:23:40Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - RiNALMo: General-Purpose RNA Language Models Can Generalize Well on
Structure Prediction Tasks [1.2466379414976048]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠されたコードを明らかにする。
RiNALMoは、これまでで最大のRNAモデルであり、600万ドルの非コーディングRNA配列で事前訓練された650ドルのパラメータを持つ。
論文 参考訳(メタデータ) (2024-02-29T14:50:58Z) - Splicing Up Your Predictions with RNA Contrastive Learning [4.35360799431127]
我々は、代替スプライシング遺伝子複製によって生成された機能配列間の類似性を利用して、対照的な学習手法をゲノムデータに拡張する。
RNA半減期やリボソーム負荷予測などの下流タスクにおけるそれらの有用性を検証する。
学習された潜在空間の探索は、我々の対照的な目的が意味論的に意味のある表現をもたらすことを示した。
論文 参考訳(メタデータ) (2023-10-12T21:51:25Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Pre-training Co-evolutionary Protein Representation via A Pairwise
Masked Language Model [93.9943278892735]
タンパク質配列表現学習の鍵となる問題は、配列中の残基間の共変量によって反映される共進化情報をキャプチャすることである。
Pairwise Masked Language Model (PMLM) と呼ばれる専用言語モデルによる事前学習により,この情報を直接キャプチャする新しい手法を提案する。
提案手法は, 相互関係を効果的に把握し, ベースラインと比較して, 接触予測性能を最大9%向上できることを示す。
論文 参考訳(メタデータ) (2021-10-29T04:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。