論文の概要: eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis
- arxiv url: http://arxiv.org/abs/2506.18940v1
- Date: Sun, 22 Jun 2025 17:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.302075
- Title: eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis
- Title(参考訳): eccDNAMamba:Ultra-Long eccDNA配列解析のための事前学習モデル
- Authors: Zhenke Liu, Jien Li, Ziqi Zhang,
- Abstract要約: 染色体外環状DNA(eccDNA)は重要な調節因子であり、癌における癌遺伝子過剰発現に寄与する。
現在、トレーニング済みのモデルでは、下流分析のためにフル長の円形eccDNAをサポートしていない。
eccDNAMambaは、円形DNA配列に調整された最初の双方向状態空間エンコーダである。
- 参考スコア(独自算出の注目度): 5.86106644437914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extrachromosomal circular DNA (eccDNA) plays key regulatory roles and contributes to oncogene overexpression in cancer through high-copy amplification and long-range interactions. Despite advances in modeling, no pre-trained models currently support full-length circular eccDNA for downstream analysis. Existing genomic models are either limited to single-nucleotide resolution or hindered by the inefficiency of the quadratic attention mechanism. Here, we introduce eccDNAMamba, the first bidirectional state-space encoder tailored for circular DNA sequences. It combines forward and reverse passes for full-context representation learning with linear-time complexity, and preserves circular structure through a novel augmentation strategy. Tested on two real-world datasets, eccDNAMamba achieves strong classification performance and scales to sequences up to 200 Kbp, offering a robust and efficient framework for modeling circular genomes. Our codes are available at https://github.com/zzq1zh/GenAI-Lab.
- Abstract(参考訳): 染色体外環状DNA(eccDNA)は重要な調節因子であり、ハイコピー増幅と長距離相互作用を通じて癌における癌遺伝子過剰発現に寄与する。
モデリングの進歩にもかかわらず、現在トレーニング済みのモデルでは、下流分析のためにフル長の円形eccDNAをサポートしていない。
既存のゲノムモデルは単一ヌクレオチド分解能に制限されるか、二次的な注意機構の非効率性によって妨げられる。
ここでは、円弧DNA配列に適した、最初の双方向状態空間エンコーダであるeccDNAMambaを紹介する。
これは、フルコンテキスト表現学習のための前と逆のパスと線形時間複雑性を結合し、新しい拡張戦略を通じて円形構造を保存する。
eccDNAMambaは2つの実世界のデータセットでテストされ、強力な分類性能と200Kbpまでの配列のスケールを実現し、円周ゲノムをモデリングするための堅牢で効率的なフレームワークを提供する。
私たちのコードはhttps://github.com/zzq1zh/GenAI-Labで公開されています。
関連論文リスト
- Hyperbolic Genome Embeddings [0.6656737591902598]
我々は,生物系の進化的インフォームド構造を利用した,双曲型CNNの新しい応用法を開発した。
我々の戦略は、配列の重要な性質を識別しながら、明示的な系統マッピングの必要性を回避するものである。
われわれの手法は、7つのGUEベンチマークデータセットの最先端性能を超えている。
論文 参考訳(メタデータ) (2025-07-29T10:06:17Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model [1.6128508494592848]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、他のシーケンシャルなデータタイプにもますます適用されてきている。
我々は、新しい事前学習パラダイムに基づいて構築された、最初の双方向DNA基盤モデルであるJanusDNAを紹介する。
JanusDNAは、1つの80GB GPU上で1つのヌクレオチド分解能で100万塩基対を処理する。
論文 参考訳(メタデータ) (2025-05-22T20:10:55Z) - Learning Genomic Structure from $k$-mers [2.07180164747172]
コントラスト学習を用いて読み出しデータを解析する手法を提案する。
エンコーダモデルは、同じゲノム領域から配列をまとめる埋め込みを生成するために訓練される。
モデルはまた、読み取りデータに基づいて完全に自己教師された訓練も可能で、完全なゲノム組立を構築することなく分析が可能である。
論文 参考訳(メタデータ) (2025-05-22T13:46:18Z) - Regulatory DNA sequence Design with Reinforcement Learning [56.20290878358356]
本稿では,強化学習を利用して事前学習した自己回帰モデルを微調整する生成手法を提案する。
2つの酵母培地条件下でのプロモーター設計タスクの評価と,3種類のヒト細胞に対するエンハンサー設計タスクの評価を行った。
論文 参考訳(メタデータ) (2025-03-11T02:33:33Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - DNABERT-S: Pioneering Species Differentiation with Species-Aware DNA Embeddings [7.822348354050447]
DNABERT-S(DNABERT-S)は,異なる種のDNA配列を自然にクラスターし,分離するために,種認識の埋め込みを開発するゲノムモデルである。
23の多様なデータセットの創発的な結果は、特に現実的なラベルスカースシナリオにおいて、DNABERT-Sの有効性を示している。
論文 参考訳(メタデータ) (2024-02-13T20:21:29Z) - Embed-Search-Align: DNA Sequence Alignment using Transformer Models [2.48439258515764]
我々はTransformerモデルのシーケンスアライメントタスクを"Embed-Search-Align"タスクとしてフレーミングすることでギャップを埋める。
新規なレファレンスフリーDNA埋め込みモデルは、共有ベクトル空間に投影される読み取りおよび参照フラグメントの埋め込みを生成する。
DNA-ESAは、BowtieやBWA-Memといった従来の手法に匹敵する、ヒトゲノム(3gb)に250長の読み書きを合わせると99%正確である。
論文 参考訳(メタデータ) (2023-09-20T06:30:39Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - DNA-GCN: Graph convolutional networks for predicting DNA-protein binding [4.1600531290054]
シーケンスk-merグラフを構築し、データセット全体のDNA-GCN(DNA-GCN)を学習する。
DNA-GCNは全てのノードに対して1ホット表現を持ち、その後、k-merとシーケンスの両方の埋め込みを共同で学習する。
ENCODEから50のデータセットでモデルを評価した。
論文 参考訳(メタデータ) (2021-06-02T07:36:11Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。