論文の概要: Near-Lossless Model Compression Enables Longer Context Inference in DNA Large Language Models
- arxiv url: http://arxiv.org/abs/2511.14694v1
- Date: Tue, 18 Nov 2025 17:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.237051
- Title: Near-Lossless Model Compression Enables Longer Context Inference in DNA Large Language Models
- Title(参考訳): DNA大言語モデルにおけるより長い文脈推論を可能にする近接ロスレスモデル圧縮
- Authors: Rui Zhu, Xiaopu Zhou, Haixu Tang, Stephen W. Scherer, Lucila Ohno-Machado,
- Abstract要約: FOCUS(Feature-Oriented Compression for Ultra-long Self-attention)は、事前訓練されたDNA LLMに挿入できるプログレッシブ・コンテクスト・圧縮モジュールである。
ホールドアウトヒト染色体では、FOCUSはほぼ無数の忠実性を達成する。
圧縮のないベースラインと比較して、FOCUSはKVキャッシュメモリを削減し、O(N2)からニア線形O(N)への効果的な推論スケーリングを変換する。
- 参考スコア(独自算出の注目度): 8.059385582452112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trained on massive cross-species DNA corpora, DNA large language models (LLMs) learn the fundamental "grammar" and evolutionary patterns of genomic sequences. This makes them powerful priors for DNA sequence modeling, particularly over long ranges. However, two major constraints hinder their use in practice: the quadratic computational cost of self-attention and the growing memory required for key-value (KV) caches during autoregressive decoding. These constraints force the use of heuristics such as fixed-window truncation or sliding windows, which compromise fidelity on ultra-long sequences by discarding distant information. We introduce FOCUS (Feature-Oriented Compression for Ultra-long Self-attention), a progressive context-compression module that can be plugged into pretrained DNA LLMs. FOCUS combines the established k-mer representation in genomics with learnable hierarchical compression: it inserts summary tokens at k-mer granularity and progressively compresses attention key and value activations across multiple Transformer layers, retaining only the summary KV states across windows while discarding ordinary-token KV. A shared-boundary windowing scheme yields a stationary cross-window interface that propagates long-range information with minimal loss. We validate FOCUS on an Evo-2-based DNA LLM fine-tuned on GRCh38 chromosome 1 with self-supervised training and randomized compression schedules to promote robustness across compression ratios. On held-out human chromosomes, FOCUS achieves near-lossless fidelity: compressing a 1 kb context into only 10 summary tokens (about 100x) shifts the average per-nucleotide probability by only about 0.0004. Compared to a baseline without compression, FOCUS reduces KV-cache memory and converts effective inference scaling from O(N^2) to near-linear O(N), enabling about 100x longer inference windows on commodity GPUs with near-lossless fidelity.
- Abstract(参考訳): 大規模な交雑種DNAコーパスで訓練されたDNA大言語モデル(LLM)は、ゲノム配列の基本的な「文法」と進化パターンを学習する。
これにより、DNA配列モデリングの強力な先駆者となり、特に長い範囲にわたる。
しかし、2つの大きな制約は、自己アテンションの2次計算コストと、自己回帰復号時にキー値(KV)キャッシュに必要なメモリの増加である。
これらの制約は、固定ウィンドウトランケーションやスライディングウインドウのようなヒューリスティックの使用を強制し、遠方の情報を捨てることで超長いシークエンスに対する忠実さを損なう。
本研究では, FOCUS (Feature-Oriented Compression for Ultra-long Self-attention) を導入する。
FOCUSは、ゲノミクスにおける確立されたk-mer表現と学習可能な階層圧縮を組み合わせ、k-merの粒度に要約トークンを挿入し、複数のトランスフォーマー層にアテンションキーと値アクティベーションを徐々に圧縮し、通常のKVを捨てながらウィンドウ全体のサマリKV状態のみを保持する。
共有境界ウィンドウ方式は、最小損失で長距離情報を伝播する静止窓インタフェースを与える。
GRCh38染色体1上に微調整されたEvo-2をベースとしたDNA LLM 上で FOCUS を検証する。
1kbコンテキストを10個の要約トークン(約100倍)に圧縮すると、ヌクレオチド当たりの平均確率は約0.0004シフトする。
圧縮のないベースラインと比較して、FOCUSはKVキャッシュメモリを削減し、O(N^2)からニアリニアO(N)への効果的な推論スケーリングを変換し、ほぼロスレスフィリティを持つコモディティGPU上の約100倍の推論ウィンドウを実現する。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - Sequential Diffusion Language Models [110.06562906987052]
拡散言語モデル(DLM)は理論効率が強いが、固定長の復号化とキー値キャッシュとの非互換性によって制限される。
次点と次点の予測を統一するNext Sequence Prediction (NSP)を導入する。
本稿では,事前学習した自己回帰言語モデル(ALM)を最小限のコストで再現可能な逐次拡散言語モデル(SDLM)を提案する。
論文 参考訳(メタデータ) (2025-09-28T17:59:15Z) - Exploiting Discriminative Codebook Prior for Autoregressive Image Generation [54.14166700058777]
トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。
自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。
近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。
k-meansの代替として、差別的コードブック先駆者(DCPE)を提案する。
論文 参考訳(メタデータ) (2025-08-14T15:00:00Z) - FAEDKV: Infinite-Window Fourier Transform for Unbiased KV Cache Compression [18.12657364501536]
FAEDKVは、トレーニング不要のKVキャッシュ圧縮フレームワークである。
初期の情報と最近の情報の両方を保存している。
LongBenchベンチマークの実験では、FAEDKVは既存のメソッドよりも最大22%優れていた。
論文 参考訳(メタデータ) (2025-07-26T18:20:25Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [31.932323809073477]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。