論文の概要: eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis
- arxiv url: http://arxiv.org/abs/2506.18940v1
- Date: Sun, 22 Jun 2025 17:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.302075
- Title: eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis
- Title(参考訳): eccDNAMamba:Ultra-Long eccDNA配列解析のための事前学習モデル
- Authors: Zhenke Liu, Jien Li, Ziqi Zhang,
- Abstract要約: 染色体外環状DNA(eccDNA)は重要な調節因子であり、癌における癌遺伝子過剰発現に寄与する。
現在、トレーニング済みのモデルでは、下流分析のためにフル長の円形eccDNAをサポートしていない。
eccDNAMambaは、円形DNA配列に調整された最初の双方向状態空間エンコーダである。
- 参考スコア(独自算出の注目度): 5.86106644437914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extrachromosomal circular DNA (eccDNA) plays key regulatory roles and contributes to oncogene overexpression in cancer through high-copy amplification and long-range interactions. Despite advances in modeling, no pre-trained models currently support full-length circular eccDNA for downstream analysis. Existing genomic models are either limited to single-nucleotide resolution or hindered by the inefficiency of the quadratic attention mechanism. Here, we introduce eccDNAMamba, the first bidirectional state-space encoder tailored for circular DNA sequences. It combines forward and reverse passes for full-context representation learning with linear-time complexity, and preserves circular structure through a novel augmentation strategy. Tested on two real-world datasets, eccDNAMamba achieves strong classification performance and scales to sequences up to 200 Kbp, offering a robust and efficient framework for modeling circular genomes. Our codes are available at https://github.com/zzq1zh/GenAI-Lab.
- Abstract(参考訳): 染色体外環状DNA(eccDNA)は重要な調節因子であり、ハイコピー増幅と長距離相互作用を通じて癌における癌遺伝子過剰発現に寄与する。
モデリングの進歩にもかかわらず、現在トレーニング済みのモデルでは、下流分析のためにフル長の円形eccDNAをサポートしていない。
既存のゲノムモデルは単一ヌクレオチド分解能に制限されるか、二次的な注意機構の非効率性によって妨げられる。
ここでは、円弧DNA配列に適した、最初の双方向状態空間エンコーダであるeccDNAMambaを紹介する。
これは、フルコンテキスト表現学習のための前と逆のパスと線形時間複雑性を結合し、新しい拡張戦略を通じて円形構造を保存する。
eccDNAMambaは2つの実世界のデータセットでテストされ、強力な分類性能と200Kbpまでの配列のスケールを実現し、円周ゲノムをモデリングするための堅牢で効率的なフレームワークを提供する。
私たちのコードはhttps://github.com/zzq1zh/GenAI-Labで公開されています。
関連論文リスト
- JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model [1.6128508494592848]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、他のシーケンシャルなデータタイプにもますます適用されてきている。
我々は、新しい事前学習パラダイムに基づいて構築された、最初の双方向DNA基盤モデルであるJanusDNAを紹介する。
JanusDNAは、1つの80GB GPU上で1つのヌクレオチド分解能で100万塩基対を処理する。
論文 参考訳(メタデータ) (2025-05-22T20:10:55Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。