論文の概要: HyperHELM: Hyperbolic Hierarchy Encoding for mRNA Language Modeling
- arxiv url: http://arxiv.org/abs/2509.24655v1
- Date: Mon, 29 Sep 2025 12:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.956164
- Title: HyperHELM: Hyperbolic Hierarchy Encoding for mRNA Language Modeling
- Title(参考訳): HyperHELM: mRNA言語モデリングのためのハイパーボリック階層エンコーディング
- Authors: Max van Spengler, Artem Moskalev, Tommaso Mansi, Mangal Prakash, Rui Liao,
- Abstract要約: HyperHELMはmRNA配列の双曲空間で事前訓練を行うマスク付き言語モデルを実装している。
これは、プロパティ予測を含む10のタスクのうち9つのタスクでユークリッドのベースラインを上回ります。
これは、階層を意識したユークリッドモデルを3%のアノテーション精度で上回る。
- 参考スコア(独自算出の注目度): 11.142457688320183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are increasingly applied to biological sequences like proteins and mRNA, yet their default Euclidean geometry may mismatch the hierarchical structures inherent to biological data. While hyperbolic geometry provides a better alternative for accommodating hierarchical data, it has yet to find a way into language modeling for mRNA sequences. In this work, we introduce HyperHELM, a framework that implements masked language model pre-training in hyperbolic space for mRNA sequences. Using a hybrid design with hyperbolic layers atop Euclidean backbone, HyperHELM aligns learned representations with the biological hierarchy defined by the relationship between mRNA and amino acids. Across multiple multi-species datasets, it outperforms Euclidean baselines on 9 out of 10 tasks involving property prediction, with 10% improvement on average, and excels in out-of-distribution generalization to long and low-GC content sequences; for antibody region annotation, it surpasses hierarchy-aware Euclidean models by 3% in annotation accuracy. Our results highlight hyperbolic geometry as an effective inductive bias for hierarchical language modeling of mRNA sequences.
- Abstract(参考訳): 言語モデルは、タンパク質やmRNAのような生物学的配列にますます適用されているが、そのデフォルトのユークリッド幾何学は、生物学的データに固有の階層構造を間違える可能性がある。
双曲幾何学は階層的データを収容するためのより良い代替手段を提供するが、mRNA配列の言語モデリングの方法はまだ見つからない。
本研究では,mRNAシークエンスのためのハイパーボリック空間において,マスク付き言語モデルを事前学習するフレームワークであるHyperHELMを紹介する。
ユークリッドのバックボーンの上に双曲的層を持つハイブリッド設計を用いて、HyperHELMは学習された表現とmRNAとアミノ酸の関係によって定義される生物学的階層を整合させる。
複数の多種多様なデータセットを通して、ユークリッドのベースラインは、プロパティ予測を含む10のタスクのうち9のベースラインを上回り、平均で10%改善され、長期および低GCコンテンツシーケンスへのアウト・オブ・ディストリビューションの一般化が優れている。
本結果は,mRNA配列の階層型言語モデリングに有効なインダクティブバイアスとして,双曲型幾何学に注目した。
関連論文リスト
- Equi-mRNA: Protein Translation Equivariant Encoding for mRNA Language Models [0.0]
2次元特殊直交行列(SO(2))の巡回部分群として同義コドン対称性を明示的に符号化する最初のコドンレベル同変mRNAモデルであるEqui-mRNAを導入する。
発現、安定性、リボスイッチングを含む下流特性予測タスクでは、Equi-mRNAは精度を最大10%向上させる。
Equi-mRNAはmRNAモデリングのための新しい生物学的原理のパラダイムを確立し、次世代治療の設計に重要な意味を持つ。
論文 参考訳(メタデータ) (2025-08-20T22:42:10Z) - Helix-mRNA: A Hybrid Foundation Model For Full Sequence mRNA Therapeutics [3.2508287756500165]
mRNAベースのワクチンは製薬業界において主要な焦点となっている。
この性質のためにmRNA配列を最適化するのは 難しい課題です
これらの課題に対処するために、構造化された状態空間ベースおよび注目ハイブリッドモデルであるHelix-mRNAを提案する。
論文 参考訳(メタデータ) (2025-02-19T14:51:41Z) - Life-Code: Central Dogma Modeling with Multi-Omics Sequence Unification [55.98854157265578]
Life-Codeは、様々な生物学的機能にまたがる包括的なフレームワークである。
本稿では、RNAを逆転写し、アミノ酸をヌクレオチド配列に変換することで、マルチオミクスデータを統合する統一パイプラインを提案する。
Life-Codeは3つのオミクスにまたがる様々なタスクの最先端の結果を達成し、マルチオミクス分析と解釈の進歩の可能性を強調している。
論文 参考訳(メタデータ) (2025-02-11T06:53:59Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - HELM: Hierarchical Encoding for mRNA Language Modeling [4.990962434274757]
我々は、mRNA言語モデリング(HELM)のための階層的生成アプローチを紹介する。
HELMはコドンの同義性に基づいて損失関数を調節し、モデルの学習過程とmRNA配列の生物学的現実を一致させる。
我々は,多様なmRNAデータセットとタスク上でHELMを評価し,HELMが標準言語モデルの事前学習より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-16T11:16:47Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - APo-VAE: Text Generation in Hyperbolic Space [116.11974607497986]
本稿では,双曲型潜在空間におけるテキスト生成について検討し,連続的な階層表現を学習する。
適応型ポインケア可変オートエンコーダ (APo-VAE) を提示し, ポインケア球上における潜伏変数の事前および変動後部の両方を包み込み正規分布により定義する。
言語モデリングと対話応答生成における実験は,提案したAPo-VAEモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-04-30T19:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。