論文の概要: Predictive models of RNA degradation through dual crowdsourcing
- arxiv url: http://arxiv.org/abs/2110.07531v1
- Date: Thu, 14 Oct 2021 16:50:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-15 17:12:45.590272
- Title: Predictive models of RNA degradation through dual crowdsourcing
- Title(参考訳): 二重クラウドソーシングによるRNA分解予測モデル
- Authors: Hannah K. Wayment-Steele, Wipapat Kladwang, Andrew M. Watkins, Do Soon
Kim, Bojan Tunguz, Walter Reade, Maggie Temkin, Jonathan Romano, Roger
Wellington-Oguri, John J. Nicol, Jiayang Gao, Kazuki Onodera, Kazuki
Fujikawa, Hanfei Mao, Gilles Vandewiele, Michele Tinti, Bram Steenwinckel,
Takuya Ito, Taiga Noumi, Shujun He, Keiichiro Ishi, Youhan Lee, Fatih
\"Ozt\"urk, Anthony Chiu, Emin \"Ozt\"urk, Karim Amer, Mohamed Fares, Eterna
Participants, Rhiju Das
- Abstract要約: クラウドソーシングされた機械学習コンペ("Stanford OpenVaccine")についてKaggleで説明する。
勝者モデルは、以前の最先端のDegScoreモデルよりも50%良いテストセットエラーを示した。
- 参考スコア(独自算出の注目度): 2.003083111563343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Messenger RNA-based medicines hold immense potential, as evidenced by their
rapid deployment as COVID-19 vaccines. However, worldwide distribution of mRNA
molecules has been limited by their thermostability, which is fundamentally
limited by the intrinsic instability of RNA molecules to a chemical degradation
reaction called in-line hydrolysis. Predicting the degradation of an RNA
molecule is a key task in designing more stable RNA-based therapeutics. Here,
we describe a crowdsourced machine learning competition ("Stanford
OpenVaccine") on Kaggle, involving single-nucleotide resolution measurements on
6043 102-130-nucleotide diverse RNA constructs that were themselves solicited
through crowdsourcing on the RNA design platform Eterna. The entire experiment
was completed in less than 6 months. Winning models demonstrated test set
errors that were better by 50% than the previous state-of-the-art DegScore
model. Furthermore, these models generalized to blindly predicting orthogonal
degradation data on much longer mRNA molecules (504-1588 nucleotides) with
improved accuracy over DegScore and other models. Top teams integrated natural
language processing architectures and data augmentation techniques with
predictions from previous dynamic programming models for RNA secondary
structure. These results indicate that such models are capable of representing
in-line hydrolysis with excellent accuracy, supporting their use for designing
stabilized messenger RNAs. The integration of two crowdsourcing platforms, one
for data set creation and another for machine learning, may be fruitful for
other urgent problems that demand scientific discovery on rapid timescales.
- Abstract(参考訳): メッセンジャーrnaベースの薬は、新型コロナウイルスワクチンとして急速に展開していることからもわかるように、大きな可能性を秘めている。
しかし、世界中のmRNA分子の分布は熱安定性によって制限されており、基本的にはRNA分子の内在的不安定性から、インライン加水分解と呼ばれる化学分解反応に制限されている。
RNA分子の劣化を予測することは、より安定したRNAベースの治療を設計する上で重要な課題である。
本稿では、Kaggle上のクラウドソーシング機械学習コンペ("Stanford OpenVaccine")について説明する。これには、6043 102-130ヌクレオチドの多様なRNA構造に対する単一ヌクレオチド分解能の測定が含まれる。
実験は6ヶ月以内に完了した。
勝者モデルは、以前の最先端のDegScoreモデルよりも50%良いテストセットエラーを示した。
さらにこれらのモデルは、より長いmRNA分子(504-1588ヌクレオチド)の直交劣化データを盲目的に予測するために一般化され、DegScoreや他のモデルよりも精度が向上した。
トップチームは、自然言語処理アーキテクチャとデータ拡張技術を統合し、rna二次構造のための以前の動的プログラミングモデルから予測した。
これらの結果から, これらのモデルでは, 高い精度でインライン加水分解を表現できることが示唆された。
データセット作成と機械学習のための2つのクラウドソーシングプラットフォームの統合は、迅速なタイムスケールで科学的発見を要求する他の緊急問題に対して有益である可能性がある。
関連論文リスト
- Character-level Tokenizations as Powerful Inductive Biases for RNA Foundational Models [0.0]
RNAの挙動を理解し予測することは、RNAの構造と相互作用の複雑さのために困難である。
現在のRNAモデルは、タンパク質ドメインで観測された性能とはまだ一致していない。
ChaRNABERTは、確立されたベンチマークでいくつかのタスクで最先端のパフォーマンスに到達することができる。
論文 参考訳(メタデータ) (2024-11-05T21:56:16Z) - Predicting Distance matrix with large language models [1.8855270809505869]
データ制限のため、RNA構造予測は依然として重要な課題である。
核磁気共鳴分光法、X線結晶学、電子顕微鏡などの従来の手法は高価で時間を要する。
距離マップはヌクレオチド間の空間的制約を単純化し、完全な3Dモデルを必要としない本質的な関係を捉える。
論文 参考訳(メタデータ) (2024-09-24T10:28:55Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Regressor-free Molecule Generation to Support Drug Response Prediction [83.25894107956735]
目標IC50スコアに基づく条件生成により、より効率的なサンプリングスペースを得ることができる。
回帰自由誘導は、拡散モデルのスコア推定と、数値ラベルに基づく回帰制御モデルの勾配を結合する。
論文 参考訳(メタデータ) (2024-05-23T13:22:17Z) - RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks [1.1764999317813143]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠れコードを明らかにする。
RiNALMoは、これまでで最大のRNA言語モデルであり、6億5千万のパラメータが3600万の非コーディングRNA配列で事前訓練されている。
論文 参考訳(メタデータ) (2024-02-29T14:50:58Z) - Machine Learning Modeling Of SiRNA Structure-Potency Relationship With
Applications Against Sars-Cov-2 Spike Gene [0.0]
薬の発見プロセスは長くて費用がかかるので、新しい薬を市場に出すのに10年近くかかります。
バイオテクノロジー、計算方法、機械学習アルゴリズムは、薬物発見を革命させ、プロセスをスピードアップし、患者の結果を改善する可能性がある。
新型コロナウイルス(COVID-19)のパンデミックは、これらの技術の可能性の認識をさらに加速し、さらに深めている。
論文 参考訳(メタデータ) (2024-01-18T23:00:34Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Predicting Hydroxyl Mediated Nucleophilic Degradation and Molecular
Stability of RNA Sequences through the Application of Deep Learning Methods [0.0]
本稿では,mRNA配列の反応性と劣化リスクを予測する手法として,3つのディープラーニングモデルを提案し,評価する。
本研究では,6034mRNA配列のStanford Open Vaccineデータセットを用いた。
その結果, これらのモデルを用いてmRNAの化学的安定性を近い将来に解明し, 予測できることが示唆された。
論文 参考訳(メタデータ) (2020-11-09T10:42:53Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。