論文の概要: OmniGenome: Aligning RNA Sequences with Secondary Structures in Genomic Foundation Models
- arxiv url: http://arxiv.org/abs/2407.11242v1
- Date: Mon, 15 Jul 2024 21:10:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:11:45.567650
- Title: OmniGenome: Aligning RNA Sequences with Secondary Structures in Genomic Foundation Models
- Title(参考訳): OmniGenome:ゲノム基盤モデルにおける二次構造を持つRNA配列の調整
- Authors: Heng Yang, Ke Li,
- Abstract要約: OmniGenomeは、構造コンテキスト化モデリングを使用して二次構造でシーケンスをブリッジする。
その結果、OmniGenomeは複雑なRNAサブタスク上で最先端のパフォーマンスを達成することがわかった。
- 参考スコア(独自算出の注目度): 7.622122513456483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The structures of RNA sequences play a vital role in various cellular processes, while existing genomic foundation models (FMs) have struggled with precise sequence-structure alignment, due to the complexity of exponential combinations of nucleotide bases. In this study, we introduce OmniGenome, a foundation model that addresses this critical challenge of sequence-structure alignment in RNA FMs. OmniGenome bridges the sequences with secondary structures using structure-contextualized modeling, enabling hard in-silico genomic tasks that existing FMs cannot handle, e.g., RNA design tasks. The results on two comprehensive genomic benchmarks show that OmniGenome achieves state-of-the-art performance on complex RNA subtasks. For example, OmniGenome solved 74% of complex puzzles, compared to SpliceBERT which solved only 3% of the puzzles. Besides, OmniGenome solves most of the puzzles within $1$ hour, while the existing methods usually allocate $24$ hours for each puzzle. Overall, OmniGenome establishes wide genomic application cases and offers profound insights into biological mechanisms from the perspective of sequence-structure alignment.
- Abstract(参考訳): RNA配列の構造は、様々な細胞プロセスにおいて重要な役割を担っているが、既存のゲノム基盤モデル(FM)は、ヌクレオチド塩基の指数的結合の複雑さのために、正確な配列構造アライメントに苦慮している。
本研究では,RNA FMにおける配列構造アライメントのこの重要な課題に対処する基礎モデルであるOmniGenomeを紹介する。
OmniGenomeは、構造コンテクスチュアライズドモデリングを使用して二次構造でシーケンスをブリッジし、既存のFMが処理できないハードなサイリコゲノムタスク、例えばRNA設計タスクを可能にする。
2つの総合的なゲノムベンチマークの結果から、OmniGenomeは複雑なRNAサブタスクで最先端のパフォーマンスを達成することが示された。
例えば、OmniGenomeは複雑なパズルの74%を解き、SpliceBERTはパズルの3%しか解けなかった。
さらに、OmniGenomeはパズルのほとんどを1時間以内で解決する。
全体として、OmniGenomeは広範囲のゲノム応用事例を確立し、配列構造アライメントの観点から生物学的メカニズムに関する深い洞察を提供する。
関連論文リスト
- Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Sequence-Augmented SE(3)-Flow Matching For Conditional Protein Backbone Generation [55.93511121486321]
タンパク質構造生成のための新しいシーケンス条件付きフローマッチングモデルFoldFlow-2を紹介する。
我々は、以前の作業のPDBデータセットよりも桁違いに大きい新しいデータセットでFoldFlow-2を大規模にトレーニングします。
我々はFoldFlow-2が従来のタンパク質構造に基づく生成モデルよりも優れていることを実証的に観察した。
論文 参考訳(メタデータ) (2024-05-30T17:53:50Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Using Signal Processing in Tandem With Adapted Mixture Models for
Classifying Genomic Signals [16.119729980200955]
本稿では,ガウス混合モデルとタンデムの信号処理を併用して,シーケンスのスペクトル表現を改善する手法を提案する。
提案手法は、確立されたベンチマークデータセットに対して、6.06%の精度で類似した最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-11-03T06:10:55Z) - Protein Sequence and Structure Co-Design with Equivariant Translation [19.816174223173494]
既存のアプローチは自己回帰モデルまたは拡散モデルを用いてタンパク質配列と構造の両方を生成する。
本稿では,タンパク質配列と構造共設計が可能な新しいアプローチを提案する。
我々のモデルは、幾何学的制約と文脈特徴からの相互作用を推論する三角法を意識したエンコーダで構成されている。
全てのタンパク質アミノ酸は翻訳工程で1ショットずつ更新され、推論プロセスが大幅に加速される。
論文 参考訳(メタデータ) (2022-10-17T06:00:12Z) - State-specific protein-ligand complex structure prediction with a
multi-scale deep generative model [68.28309982199902]
タンパク質-リガンド複合体構造を直接予測できる計算手法であるNeuralPLexerを提案する。
我々の研究は、データ駆動型アプローチがタンパク質と小分子の構造的協調性を捉え、酵素や薬物分子などの設計を加速させる可能性を示唆している。
論文 参考訳(メタデータ) (2022-09-30T01:46:38Z) - Graph Neural Networks for Microbial Genome Recovery [64.91162205624848]
本稿では,グラフニューラルネットワーク(GNN)を用いて,メダゲノミクスビニングのためのコンティグ表現を学習する際のアセンブリグラフを活用することを提案する。
提案手法であるVaeG-Binは,個々のコンティグの潜在表現を学習するための変分オートエンコーダと,アセンブリグラフ内のコンティグの近傍構造を考慮したGNNを組み合わせる。
論文 参考訳(メタデータ) (2022-04-26T12:49:51Z) - Independent SE(3)-Equivariant Models for End-to-End Rigid Protein
Docking [57.2037357017652]
我々は、剛体タンパク質ドッキング、すなわち、個々の非結合構造からタンパク質-タンパク質複合体の3次元構造を計算的に予測する。
本研究では, タンパク質の回転と翻訳を予測し, 1つのタンパク質をドッキング位置に置くために, ペアワイズ非独立なSE(3)-等変グラフマッチングネットワークを設計する。
我々のモデルはEquiDockと呼ばれ、結合ポケットを近似し、キーポイントマッチングとアライメントを用いてドッキングポーズを予測する。
論文 参考訳(メタデータ) (2021-11-15T18:46:37Z) - Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design [70.27706384570723]
Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
論文 参考訳(メタデータ) (2021-06-24T14:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。