論文の概要: A Practical Tensor-Network Compression Pipeline for Production-Scale Large Language Models
- arxiv url: http://arxiv.org/abs/2602.01613v1
- Date: Mon, 02 Feb 2026 04:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.894582
- Title: A Practical Tensor-Network Compression Pipeline for Production-Scale Large Language Models
- Title(参考訳): 生産規模大規模言語モデルのための実用的なテンソル・ネットワーク圧縮パイプライン
- Authors: Sergii Kozyrev, Davyd Maiboroda,
- Abstract要約: Minimaは、Transformerの構造的圧縮の場所と方法を学ぶ、プロダクション圧縮パイプラインである。
Minimaは8k-tokenコンテキストウィンドウでQwen3-32B上で実行し、ピークVRAMを64 GiBから40 GiBに削減する。
単一のアクティブリクエストでは、スループットは毎秒40トークン(ベースライン)から毎秒50トークン(ミニマ)、毎秒75トークン(推測復号化のミニマ)に向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are limited in deployment by GPU memory and inference latency. We present Minima, a production compression pipeline that learns where and how to structurally compress a Transformer and turns that compression into real serving gains. Minima trains a lightweight convolutional predictor to estimate layer- and patch-level sensitivity, applies a mixture of Tucker, tensor-train, and tensor-ring decompositions to low-sensitivity regions, performs a short healing fine-tune, and executes the resulting operators with custom Triton and CUDA kernels. The reduced memory footprint enables speculative decoding with a small draft model and a larger verifier. On Qwen3-32B at an 8k-token context window, Minima reduces peak VRAM from 64 GiB to 40 GiB. For a single active request, throughput increases from 40 tokens per second (baseline) to 50 tokens per second (Minima) and 75 tokens per second (Minima with speculative decoding). Under 50 parallel requests, throughput is 34, 44, and 53 tokens per second respectively, showing that Minima remains effective under high concurrency even when speculative decoding gains compress. We position Minima relative to recent tensor-network, low-rank plus quantization, and cross-layer sharing methods, and argue that it is a practical step toward more aggressive structural compression via shared tensor backbones with tiny per-layer adapters.
- Abstract(参考訳): 大規模言語モデルは、GPUメモリと推論レイテンシによるデプロイメントに制限がある。
プロダクション圧縮パイプラインであるMinimaは、Transformerの構造的圧縮の場所と方法を学び、その圧縮を実際のサービスゲインに変換する。
ミニマは、レイヤレベルの感度とパッチレベルの感度を推定するために軽量な畳み込み予測器を訓練し、タッカー、テンソルトレイン、テンソルリングの分解を低感度領域に適用し、短い修復細管を実行し、カスタムのトリトンとCUDAカーネルで演算子を実行する。
メモリフットプリントの削減により、小さなドラフトモデルとより大きな検証器による投機的復号化が可能になる。
8kのコンテキストウィンドウのQwen3-32Bでは、MinimaはピークVRAMを64 GiBから40 GiBに削減する。
単一のアクティブリクエストでは、スループットは毎秒40トークン(ベースライン)から毎秒50トークン(ミニマ)、毎秒75トークン(推測復号化のミニマ)に向上する。
50の並列要求の下では、スループットはそれぞれ34、44、53トークンであり、投機的復号化が圧縮された場合でも、Minimaは高い並列性の下で有効であることを示す。
我々は、最近のテンソルネットワーク、低ランクプラス量子化、および層間共有法に対してMinimaを配置し、小さな層間アダプタを用いた共有テンソルバックボーンによるより攻撃的な構造圧縮に向けた実践的なステップであると主張している。
関連論文リスト
- CommVQ: Commutative Vector Quantization for KV Cache Compression [50.37946553931796]
本稿では,長期LLM推論におけるメモリ使用量を大幅に削減するために,CommVQ(CommVQ)を提案する。
まず、KVキャッシュを圧縮するための軽量エンコーダとコードブックを用いた加算量子化を導入する。
提案手法は,RoPE-commutative codebook を用いた加算量子化と低オーバーヘッド化により高い精度を実現する。
論文 参考訳(メタデータ) (2025-06-23T17:50:11Z) - Speculative Decoding Meets Quantization: Compatibility Evaluation and Hierarchical Framework Design [34.04231165571518]
投機的復号化と量子化は、大きな言語モデルのメモリバウンド推論を効果的に加速する。
量子化は、重みとアクティベーションを低ビット幅に圧縮することでこれを達成し、低ビット行列乗算による計算を減らす。
実験により、4ビットの重み量子化によるメモリの利点は、投機的復号化による計算負荷によって減少することが示された。
論文 参考訳(メタデータ) (2025-05-28T09:55:08Z) - EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.5240021321113204]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。
本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文 参考訳(メタデータ) (2025-05-05T05:42:14Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Shallow Cross-Encoders for Low-Latency Retrieval [69.06104373460597]
BERTやT5のような大きなトランスフォーマーモデルに基づくクロスエンコーダは計算コストが高く、非常に小さな遅延ウィンドウ内で少数の文書しかスコアできない。
より弱い浅層変圧器モデル(すなわち、層数が限られている変圧器)は、これらの実用的な低レイテンシ設定に制約された場合、実際にフルスケールモデルよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-03-29T15:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。