論文の概要: Hyperbolic Genome Embeddings
- arxiv url: http://arxiv.org/abs/2507.21648v1
- Date: Tue, 29 Jul 2025 10:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.973687
- Title: Hyperbolic Genome Embeddings
- Title(参考訳): 双曲型ゲノムエンベディング
- Authors: Raiyan R. Khan, Philippe Chlenski, Itsik Pe'er,
- Abstract要約: 我々は,生物系の進化的インフォームド構造を利用した,双曲型CNNの新しい応用法を開発した。
我々の戦略は、配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避するものである。
われわれの手法は、7つのGUEベンチマークデータセットの最先端性能を超えている。
- 参考スコア(独自算出の注目度): 0.6656737591902598
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current approaches to genomic sequence modeling often struggle to align the inductive biases of machine learning models with the evolutionarily-informed structure of biological systems. To this end, we formulate a novel application of hyperbolic CNNs that exploits this structure, enabling more expressive DNA sequence representations. Our strategy circumvents the need for explicit phylogenetic mapping while discerning key properties of sequences pertaining to core functional and regulatory behavior. Across 37 out of 42 genome interpretation benchmark datasets, our hyperbolic models outperform their Euclidean equivalents. Notably, our approach even surpasses state-of-the-art performance on seven GUE benchmark datasets, consistently outperforming many DNA language models while using orders of magnitude fewer parameters and avoiding pretraining. Our results include a novel set of benchmark datasets--the Transposable Elements Benchmark--which explores a major but understudied component of the genome with deep evolutionary significance. We further motivate our work by exploring how our hyperbolic models recognize genomic signal under various data-generating conditions and by constructing an empirical method for interpreting the hyperbolicity of dataset embeddings. Throughout these assessments, we find persistent evidence highlighting the potential of our hyperbolic framework as a robust paradigm for genome representation learning. Our code and benchmark datasets are available at https://github.com/rrkhan/HGE.
- Abstract(参考訳): ゲノム配列モデリングへの現在のアプローチは、しばしば、機械学習モデルの帰納バイアスと生物学的システムの進化的インフォームド構造との整合に苦慮している。
この目的のために、我々はこの構造を利用する双曲型CNNの新たな応用を定式化し、より表現力のあるDNA配列表現を可能にした。
我々の戦略は、機能的および規制的行動に関連する配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避している。
42のゲノム解釈ベンチマークデータセットのうち37つ中、私たちの双曲型モデルはユークリッド同値よりも優れています。
特に、我々のアプローチは、7つのGUEベンチマークデータセットの最先端性能を超え、桁違いに少ないパラメータを使用し、事前訓練を避けながら、多くのDNA言語モデルより一貫して優れています。
我々の研究結果には、トランスポーザブル要素ベンチマーク(Transposable Elements Benchmark)と呼ばれる新しいベンチマークデータセットが含まれている。
さらに,我々のハイパーボリックモデルが,様々なデータ生成条件下でゲノム信号をどのように認識するかを探索し,データセット埋め込みのハイパーボリック性を解釈するための経験的手法を構築することにより,我々の研究を動機付けている。
これらの評価を通じて、我々は、ゲノム表現学習の堅牢なパラダイムとして、ハイパーボリックフレームワークの可能性を強調した持続的な証拠を見出した。
コードとベンチマークのデータセットはhttps://github.com/rrkhan/HGE.orgで公開されています。
関連論文リスト
- Learning Genomic Structure from $k$-mers [2.07180164747172]
コントラスト学習を用いて読み出しデータを解析する手法を提案する。
エンコーダモデルは、同じゲノム領域から配列をまとめる埋め込みを生成するために訓練される。
モデルはまた、読み取りデータに基づいて完全に自己教師された訓練も可能で、完全なゲノム組立を構築することなく分析が可能である。
論文 参考訳(メタデータ) (2025-05-22T13:46:18Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - Revisiting K-mer Profile for Effective and Scalable Genome Representation Learning [0.0]
我々は、k-merをベースとしたゲノムの表現の理論解析を行う。
本稿では,ゲノム読取レベルでメダゲノミクスビニングを行うための軽量でスケーラブルなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T14:36:51Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Hyperbolic Delaunay Geometric Alignment [52.835250875177756]
双曲空間におけるデータセットの比較のための類似度スコアを提案する。
中心となる考え方は、与えられた集合をまたいだデータポイントを接続する双曲デラウネーグラフのエッジを数えることである。
人工および実生活の生物学的データに関する実証的研究を行い、HyperDGAが集合間の古典的距離の双曲バージョンより優れていることを示す。
論文 参考訳(メタデータ) (2024-04-12T17:14:58Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。