論文の概要: Predicting Distance matrix with large language models
- arxiv url: http://arxiv.org/abs/2409.16333v1
- Date: Tue, 24 Sep 2024 10:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 08:51:05.790086
- Title: Predicting Distance matrix with large language models
- Title(参考訳): 大規模言語モデルを用いた距離行列の予測
- Authors: Jiaxing Yang
- Abstract要約: データ制限のため、RNA構造予測は依然として重要な課題である。
核磁気共鳴分光法、X線結晶学、電子顕微鏡などの従来の手法は高価で時間を要する。
距離マップはヌクレオチド間の空間的制約を単純化し、完全な3Dモデルを必要としない本質的な関係を捉える。
- 参考スコア(独自算出の注目度): 1.8855270809505869
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Structural prediction has long been considered critical in RNA research,
especially following the success of AlphaFold2 in protein studies, which has
drawn significant attention to the field. While recent advances in machine
learning and data accumulation have effectively addressed many biological
tasks, particularly in protein related research. RNA structure prediction
remains a significant challenge due to data limitations. Obtaining RNA
structural data is difficult because traditional methods such as nuclear
magnetic resonance spectroscopy, Xray crystallography, and electron microscopy
are expensive and time consuming. Although several RNA 3D structure prediction
methods have been proposed, their accuracy is still limited. Predicting RNA
structural information at another level, such as distance maps, remains highly
valuable. Distance maps provide a simplified representation of spatial
constraints between nucleotides, capturing essential relationships without
requiring a full 3D model. This intermediate level of structural information
can guide more accurate 3D modeling and is computationally less intensive,
making it a useful tool for improving structural predictions. In this work, we
demonstrate that using only primary sequence information, we can accurately
infer the distances between RNA bases by utilizing a large pretrained RNA
language model coupled with a well trained downstream transformer.
- Abstract(参考訳): 構造予測はRNA研究において、特にタンパク質研究でAlphaFold2が成功した後、長い間重要と考えられてきた。
近年の機械学習とデータ蓄積の進歩は、特にタンパク質関連研究において、多くの生物学的タスクに効果的に対処している。
データ制限のため、RNA構造予測は依然として重要な課題である。
核磁気共鳴分光法、X線結晶学、電子顕微鏡などの従来の手法は高価で時間を要するため、RNA構造データの取得は困難である。
いくつかのRNA 3D構造予測法が提案されているが、精度はまだ限られている。
距離マップのような別のレベルでRNA構造情報を予測することは、非常に貴重である。
距離マップはヌクレオチド間の空間的制約を単純化し、完全な3Dモデルを必要としない本質的な関係を捉える。
この中間レベルの構造情報は、より正確な3Dモデリングを導くことができ、計算量も少なく、構造予測を改善するのに有用なツールである。
本研究では、一次配列情報のみを用いて、トレーニング済みの大規模なRNA言語モデルと訓練済みの下流トランスフォーマーを併用することにより、RNA塩基間の距離を正確に推定できることを実証する。
関連論文リスト
- BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - 3D-based RNA function prediction tools in rnaglib [2.048226951354646]
RNA 3D構造のデータセットを構築し、適切なモデリング選択を行うには、まだ時間がかかり、標準化が欠如している。
本稿では,RNA3次元構造のデータセット上で,教師付きおよび教師なし機械学習に基づく関数予測モデルをトレーニングするために,rnaglibを用いることについて述べる。
論文 参考訳(メタデータ) (2024-02-14T17:22:03Z) - Knowledge from Large-Scale Protein Contact Prediction Models Can Be
Transferred to the Data-Scarce RNA Contact Prediction Task [40.051834115537474]
タンパク質共進化トランスフォーマーに基づくディープニューラルネットワークはRNA接触予測タスクに転送可能である。
実験により、転写学習によるRNA接触予測が大幅に改善されることが確認された。
以上の結果から, タンパク質の構造パターンはRNAに転移し, 新たな研究の道を開く可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-13T06:00:56Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Computational prediction of RNA tertiary structures using machine
learning methods [14.35527588241679]
計算予測アプローチはRNA構造とその安定化因子を理解するのに役立つ。
タンパク質関連分野におけるそれらの利用の歴史は長いが、RNA第3次構造を予測する機械学習手法は新しくて稀である。
論文 参考訳(メタデータ) (2020-09-03T04:01:43Z) - Review of Machine-Learning Methods for RNA Secondary Structure
Prediction [21.3539253580504]
機械学習技術に基づくRNA二次構造予測手法の概要について概説する。
RNA二次構造予測の分野で現在進行中の課題と今後の動向についても論じる。
論文 参考訳(メタデータ) (2020-09-01T03:17:15Z) - Transfer Learning for Protein Structure Classification at Low Resolution [124.5573289131546]
タンパク質のクラスとアーキテクチャの正確な(geq$80%)予測を、低い(leq$3A)解像度で決定された構造から行うことができることを示す。
本稿では, 高速で低コストなタンパク質構造を低解像度で分類するための概念実証と, 機能予測への拡張の基礎を提供する。
論文 参考訳(メタデータ) (2020-08-11T15:01:32Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z) - RNA Secondary Structure Prediction By Learning Unrolled Algorithms [70.09461537906319]
本稿では,RNA二次構造予測のためのエンド・ツー・エンドのディープラーニングモデルであるE2Efoldを提案する。
E2Efoldの鍵となる考え方は、RNA塩基対行列を直接予測し、制約のないプログラミングを、制約を強制するための深いアーキテクチャのテンプレートとして使うことである。
ベンチマークデータセットに関する包括的な実験により、E2Efoldの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-02-13T23:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。