論文の概要: Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models
- arxiv url: http://arxiv.org/abs/2604.14156v1
- Date: Sun, 22 Mar 2026 14:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.680781
- Title: Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models
- Title(参考訳): 圧縮センシング誘導型推論型大規模言語モデルのための構造化
- Authors: Andrew Kiruluta,
- Abstract要約: 大規模言語モデルは強力な生成性能を提供するが、膨大なパラメータ数、メモリ使用量、復号遅延のコストがかかる。
動的LLM実行のための統合圧縮センシング誘導フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models deliver strong generative performance but at the cost of massive parameter counts, memory use, and decoding latency. Prior work has shown that pruning and structured sparsity can preserve accuracy under substantial compression, while prompt-compression methods reduce latency by removing redundant input tokens. However, these two directions remain largely separate. Most model-compression methods are static and optimized offline, and they do not exploit the fact that different prompts and decoding steps activate different latent computational pathways. Prompt-compression methods reduce sequence length, but they do not adapt the executed model subnetwork. We propose a unified compressed-sensing-guided framework for dynamic LLM execution. Random measurement operators probe latent model usage, sparse recovery estimates task-conditioned and token-adaptive support sets, and the recovered supports are compiled into hardware-efficient sparse execution paths over blocks, attention heads, channels, and feed-forward substructures. The framework introduces five key contributions: task-conditioned measurements, so different prompts induce different sparse supports; token-adaptive recovery, so active substructures are re-estimated during decoding; formal sample-complexity bounds under restricted isometry or mutual incoherence assumptions; compile-to-hardware constraints that restrict recovery to GPU-efficient structures; and a joint objective that unifies prompt compression with model reduction. Together, these components recast LLM inference as a measurement-and-recovery problem with explicit approximation guarantees and deployment-oriented speedup constraints.
- Abstract(参考訳): 大規模言語モデルは強力な生成性能を提供するが、膨大なパラメータ数、メモリ使用量、復号遅延のコストがかかる。
以前の研究では、プルーニングと構造化されたスパーシリティは相当な圧縮の下で精度を保ち、プロンプト圧縮法は冗長な入力トークンを除去することで遅延を低減することが示されている。
しかし、この2つの方向は依然として大きく分かれている。
ほとんどのモデル圧縮法は静的で最適化されたオフラインであり、異なるプロンプトとデコードステップが異なる遅延計算経路を活性化するという事実を生かしていない。
プロンプト圧縮法はシーケンス長を減少させるが、実行されたモデルサブネットワークに適応しない。
動的LLM実行のための統合圧縮センシング誘導フレームワークを提案する。
ランダム測定オペレータは、遅延モデルの使用、タスク条件付きおよびトークン適応サポートセットのスパースリカバリ推定、および、回復されたサポートセットを、ブロック、アテンションヘッド、チャネル、フィードフォワードサブ構造上のハードウェア効率の良いスパース実行パスにコンパイルする。
このフレームワークでは、タスク条件付き測定、異なるプロンプトの異なるスパースサポートの誘導、トークン適応型リカバリ、アクティブなサブ構造の再推定、制限されたアイソメトリまたは相互不整合仮定の下での正式なサンプル複雑な境界、GPU効率の高い構造へのリカバリを制限するコンパイルとハードウエアの制約、モデルリダクションによる即時圧縮を統一する共同目的の5つの重要なコントリビューションが紹介されている。
これらのコンポーネントは、LLM推論を明示的な近似保証とデプロイメント指向のスピードアップ制約によって測定と回復の問題として再考する。
関連論文リスト
- Towards Practical Lossless Neural Compression for LiDAR Point Clouds [84.36825469211375]
高精度な幾何学的詳細の極端に広い範囲は、効率的な文脈モデリングを妨げる。
私たちのフレームワークは2つの軽量モジュールで構成されています。
実験では、リアルタイムに競争力のある圧縮性能を示す。
論文 参考訳(メタデータ) (2026-03-26T10:02:07Z) - Re-Densification Meets Cross-Scale Propagation: Real-Time Neural Compression of LiDAR Point Clouds [83.39320394656855]
LiDARポイントクラウドは、様々なアプリケーションに基本的だが、高精度スキャンは、かなりのストレージと送信オーバーヘッドを発生させる。
既存の手法では、非順序の点を階層的なオクツリーやボクセル構造に変換して、密度から疎い予測符号化を行うのが一般的である。
筆者らのフレームワークは2つの軽量モジュールから構成されている。まず、Geometry Re-Densification Moduleがエンコードされたスパース幾何を再認識し、より密なスケールで特徴を抽出し、予測符号化のための特徴を再分離する。
論文 参考訳(メタデータ) (2025-08-28T06:36:10Z) - FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文 参考訳(メタデータ) (2025-05-29T19:42:35Z) - Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。
6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-16T05:50:12Z) - UNComp: Can Matrix Entropy Uncover Sparsity? -- A Compressor Design from an Uncertainty-Aware Perspective [85.08718140718707]
UNCompは不確実性を認識したフレームワークで、適応圧縮に使用できる空間パターンを明らかにする。
スパーシティパターンを詳細に分析する不確実性に注目して、UNCompはKVキャッシュサイズを4.74%に削減し、6%のプリフィルスピードアップを実現し、スループットを6.4倍改善した。
論文 参考訳(メタデータ) (2024-10-04T02:32:36Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。