論文の概要: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
- arxiv url: http://arxiv.org/abs/2509.06836v2
- Date: Sat, 27 Sep 2025 22:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.566904
- Title: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
- Title(参考訳): CompACT: チャネルとトークンを横断する共通トークン最適化モデル
- Authors: Eugene Kwek, Wenpeng Yin,
- Abstract要約: プルーニングは有望な手法であるが、既存のプルーニング手法は限られている。
本研究では, (i) 埋め込み/LMヘッド層を縮小するために希少な語彙を併用し, (ii) 共通トケン重み付き活性化を用いたFFN中間チャネルをプルーするCompactを提案する。
Qwen、LLaMA、Gemmaファミリ(0.5B-70B)にわたる実験では、パラメータ、GPUメモリ、レイテンシを大幅に削減した最先端のダウンストリームのパフォーマンスが示されている。
- 参考スコア(独自算出の注目度): 8.846552276586918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making large language models (LLMs) more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a promising technique, but existing pruning methods are limited: width pruning often breaks the standard transformer layout, requiring custom inference code, while depth pruning can cause abrupt accuracy drops. Also, while many pruning approaches are effective against LLMs, they struggle to maintain performance on small language models (SLMs). In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/LM head layers and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT inherits strengths of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab. vs. FFN pruning), competitive pruning times, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream performance, with substantial reductions in parameters, GPU memory, and latency.
- Abstract(参考訳): 大規模言語モデル(LLM)をメモリ、レイテンシ、サービスコストでより効率的にすることは、エッジデプロイメント、インタラクティブアプリケーション、大規模で持続可能な推論に不可欠である。
プルーニングは有望な手法であるが、既存のプルーニング手法には制限がある。幅プルーニングはしばしば標準のトランスフォーマーレイアウトを壊し、カスタム推論コードを必要とするが、ディーププププルーニングは突然の精度低下を引き起こす。
また,LLMに対して多くのプルーニング手法が有効であるが,小型言語モデル(SLM)の性能維持に苦慮している。
本稿では,共同で提案するCompactを提案する。
一 埋め込み/LMヘッド層を縮小し、希少な語彙
(II)コモントケン重み付きアクティベーションを用いたFFN中間チャネルのプルーネとポストプルーニングトークン分布の整合性について検討した。
CompACTは、デプロイメントフレンドリさ(標準的なトランスフォーマーアーキテクチャのキープ)、スケール適応性(VocabとFFNのプルーニングのトラドオフ)、競合的なプルーニング時間、スループット向上を伴う強力なメモリセーブといった、深さと幅のプルーニングの長所を継承する。
Qwen、LLaMA、Gemmaファミリ(0.5B-70B)にわたる実験では、パラメータ、GPUメモリ、レイテンシを大幅に削減した最先端のダウンストリームのパフォーマンスが示されている。
関連論文リスト
- SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - Interspace Pruning: Using Adaptive Filter Representations to Improve
Training of Sparse CNNs [69.3939291118954]
非構造プルーニングは畳み込みニューラルネットワーク(CNN)のメモリフットプリントを削減するのに適している
標準非構造化プルーニング(SP)はフィルタ要素をゼロにすることでCNNのメモリフットプリントを削減する。
既存のプルーニング法を改善する汎用ツールであるインタースペースプルーニング(IP)を導入する。
論文 参考訳(メタデータ) (2022-03-15T11:50:45Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。