論文の概要: GeneZip: Region-Aware Compression for Long Context DNA Modeling
- arxiv url: http://arxiv.org/abs/2602.17739v1
- Date: Thu, 19 Feb 2026 09:53:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.091594
- Title: GeneZip: Region-Aware Compression for Long Context DNA Modeling
- Title(参考訳): GeneZip:ロングコンテキストDNAモデリングのための領域認識圧縮
- Authors: Jianan Zhao, Xixian Liu, Zhihao Zhan, Xinyu Yuan, Hongyu Guo, Jian Tang,
- Abstract要約: GeneZipは領域認識圧縮を学習し、わずか0.31パープレキシティの増加で137.6倍圧縮を達成する。
GeneZipはコンテキストとキャパシティの同時スケーリングをアンロックする。
この論文のすべての実験は、単一のA100 80GB GPUでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 28.486039583336346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Genomic sequences span billions of base pairs (bp), posing a fundamental challenge for genome-scale foundation models. Existing approaches largely sidestep this barrier by either scaling relatively small models to long contexts or relying on heavy multi-GPU parallelism. Here we introduce GeneZip, a DNA compression model that leverages a key biological prior: genomic information is highly imbalanced. Coding regions comprise only a small fraction (about 2 percent) yet are information-dense, whereas most non-coding sequence is comparatively information-sparse. GeneZip couples HNet-style dynamic routing with a region-aware compression-ratio objective, enabling adaptive allocation of representation budget across genomic regions. As a result, GeneZip learns region-aware compression and achieves 137.6x compression with only 0.31 perplexity increase. On downstream long-context benchmarks, GeneZip achieves comparable or better performance on contact map prediction, expression quantitative trait loci prediction, and enhancer-target gene prediction. By reducing effective sequence length, GeneZip unlocks simultaneous scaling of context and capacity: compared to the prior state-of-the-art model JanusDNA, it enables training models 82.6x larger at 1M-bp context, supporting a 636M-parameter GeneZip model at 1M-bp context. All experiments in this paper can be trained on a single A100 80GB GPU.
- Abstract(参考訳): ゲノム配列は数十億の塩基対 (bp) にまたがっており、ゲノムスケールの基礎モデルにとって根本的な課題となっている。
既存のアプローチは、比較的小さなモデルを長いコンテキストにスケールするか、重いマルチGPU並列性に依存するかによって、この障壁を大半を横切る。
ここではDNA圧縮モデルであるGeneZipを紹介する。
符号化領域はわずか (約2%) しか構成されていないが、ほとんどの非符号化シーケンスは比較的情報スパースである。
GeneZipは、HNetスタイルの動的ルーティングを領域対応圧縮比の目的と組み合わせ、ゲノム領域にまたがる表現予算の適応的な割り当てを可能にする。
その結果、GeneZipは領域認識圧縮を学び、わずか0.31パープレキシティの増加で137.6倍圧縮を達成した。
下流のロングコンテキストベンチマークでは、GeneZipは、コンタクトマップ予測、表現量量的トレーサローシ予測、エンハンサーターゲット遺伝子予測において同等またはより良いパフォーマンスを達成する。
効率的なシーケンス長を減らし、GeneZipはコンテキストとキャパシティの同時スケーリングをアンロックする:従来の最先端モデルであるJanusDNAと比較して、1M-bpコンテキストで82.6倍のトレーニングモデルを可能にし、1M-bpコンテキストで636MパラメータのGeneZipモデルをサポートする。
この論文のすべての実験は、単一のA100 80GB GPUでトレーニングすることができる。
関連論文リスト
- Near-Lossless Model Compression Enables Longer Context Inference in DNA Large Language Models [8.059385582452112]
FOCUS(Feature-Oriented Compression for Ultra-long Self-attention)は、事前訓練されたDNA LLMに挿入できるプログレッシブ・コンテクスト・圧縮モジュールである。
ホールドアウトヒト染色体では、FOCUSはほぼ無数の忠実性を達成する。
圧縮のないベースラインと比較して、FOCUSはKVキャッシュメモリを削減し、O(N2)からニア線形O(N)への効果的な推論スケーリングを変換する。
論文 参考訳(メタデータ) (2025-11-18T17:29:39Z) - Hybrid Tokenization Strategy for DNA Language Model using Byte Pair Encoding and K-MER Methods [0.0]
従来のk-merトークン化は、局所的なDNA配列構造を捉えるのに効果的であるが、しばしば課題に直面している。
選択したBPEトークンを600のBPEサイクルで生成し,ユニークな6merトークンと組み合わせることを提案する。
このハイブリッドアプローチにより、バランスの取れたコンテキスト対応の語彙が保証され、モデルがショートパターンとロングパターンの両方をキャプチャできる。
論文 参考訳(メタデータ) (2025-07-24T16:45:23Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model [7.8918969994977575]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、他のシーケンシャルなデータタイプにもますます適用されてきている。
我々は、新しい事前学習パラダイムに基づいて構築された、最初の双方向DNA基盤モデルであるJanusDNAを紹介する。
JanusDNAは、1つの80GB GPU上で1つのヌクレオチド分解能で100万塩基対を処理する。
論文 参考訳(メタデータ) (2025-05-22T20:10:55Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - xRAG: Extreme Context Compression for Retrieval-augmented Generation with One Token [108.7069350303884]
xRAGは、検索拡張生成に適した、革新的なコンテキスト圧縮手法である。
xRAGは、言語モデル表現空間に文書の埋め込みをシームレスに統合する。
実験の結果、xRAGは6つの知識集約タスクで平均10%以上の改善を達成していることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:15:17Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z) - DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome [10.051595222470304]
我々は、k-merトークン化によって導入された計算とサンプルの非効率性が、大規模なゲノム基盤モデルの開発における主要な障害であると主張している。
我々は、k-merトークン化をByte Pair$に置き換えることを提案するゲノムトークン化に関する概念的および実証的な洞察を提供する。
DNABERT-2は、効率的なトークン化を施し、入力長制約を克服するために複数の戦略を用いるゲノム基盤モデルである。
論文 参考訳(メタデータ) (2023-06-26T18:43:46Z) - Sparse Tensor-based Multiscale Representation for Point Cloud Geometry
Compression [18.24902526033056]
Sparse Processing (STP) を用いたVoxelized PCGのマルチスケール表現による統合ポイントクラウド幾何 (PCG) 圧縮手法を開発した。
複雑性を適用することで複雑性を著しく減少させるのは、最も確率の高いVoxels(MP-POV)を中心とした畳み込みのみを実行するためである。
提案手法は,すべてのスケールでモデル共有を行うため,ポイントワイズによる軽量な複雑性と,小さなストレージ欲求を示す。
論文 参考訳(メタデータ) (2021-11-20T17:02:45Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。