論文の概要: Hyperbolic Genome Embeddings
- arxiv url: http://arxiv.org/abs/2507.21648v1
- Date: Tue, 29 Jul 2025 10:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.973687
- Title: Hyperbolic Genome Embeddings
- Title(参考訳): 双曲型ゲノムエンベディング
- Authors: Raiyan R. Khan, Philippe Chlenski, Itsik Pe'er,
- Abstract要約: 我々は,生物系の進化的インフォームド構造を利用した,双曲型CNNの新しい応用法を開発した。
我々の戦略は、配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避するものである。
われわれの手法は、7つのGUEベンチマークデータセットの最先端性能を超えている。
- 参考スコア(独自算出の注目度): 0.6656737591902598
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current approaches to genomic sequence modeling often struggle to align the inductive biases of machine learning models with the evolutionarily-informed structure of biological systems. To this end, we formulate a novel application of hyperbolic CNNs that exploits this structure, enabling more expressive DNA sequence representations. Our strategy circumvents the need for explicit phylogenetic mapping while discerning key properties of sequences pertaining to core functional and regulatory behavior. Across 37 out of 42 genome interpretation benchmark datasets, our hyperbolic models outperform their Euclidean equivalents. Notably, our approach even surpasses state-of-the-art performance on seven GUE benchmark datasets, consistently outperforming many DNA language models while using orders of magnitude fewer parameters and avoiding pretraining. Our results include a novel set of benchmark datasets--the Transposable Elements Benchmark--which explores a major but understudied component of the genome with deep evolutionary significance. We further motivate our work by exploring how our hyperbolic models recognize genomic signal under various data-generating conditions and by constructing an empirical method for interpreting the hyperbolicity of dataset embeddings. Throughout these assessments, we find persistent evidence highlighting the potential of our hyperbolic framework as a robust paradigm for genome representation learning. Our code and benchmark datasets are available at https://github.com/rrkhan/HGE.
- Abstract(参考訳): ゲノム配列モデリングへの現在のアプローチは、しばしば、機械学習モデルの帰納バイアスと生物学的システムの進化的インフォームド構造との整合に苦慮している。
この目的のために、我々はこの構造を利用する双曲型CNNの新たな応用を定式化し、より表現力のあるDNA配列表現を可能にした。
我々の戦略は、機能的および規制的行動に関連する配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避している。
42のゲノム解釈ベンチマークデータセットのうち37つ中、私たちの双曲型モデルはユークリッド同値よりも優れています。
特に、我々のアプローチは、7つのGUEベンチマークデータセットの最先端性能を超え、桁違いに少ないパラメータを使用し、事前訓練を避けながら、多くのDNA言語モデルより一貫して優れています。
我々の研究結果には、トランスポーザブル要素ベンチマーク(Transposable Elements Benchmark)と呼ばれる新しいベンチマークデータセットが含まれている。
さらに,我々のハイパーボリックモデルが,様々なデータ生成条件下でゲノム信号をどのように認識するかを探索し,データセット埋め込みのハイパーボリック性を解釈するための経験的手法を構築することにより,我々の研究を動機付けている。
これらの評価を通じて、我々は、ゲノム表現学習の堅牢なパラダイムとして、ハイパーボリックフレームワークの可能性を強調した持続的な証拠を見出した。
コードとベンチマークのデータセットはhttps://github.com/rrkhan/HGE.orgで公開されています。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。