論文の概要: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
- arxiv url: http://arxiv.org/abs/2509.06836v1
- Date: Mon, 08 Sep 2025 16:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.244857
- Title: COMPACT: Common-token Optimized Model Pruning Across Channels and Tokens
- Title(参考訳): CompACT: チャネルとトークンを横断する共通トークン最適化モデル
- Authors: Eugene Kwek, Wenpeng Yin,
- Abstract要約: プルーニングは、LLMをメモリ、レイテンシ、サービスコストでより効率的にするための重要なテクニックである。
我々は, (i) 埋め込み/組込みを縮小するために, (i) 稀な語彙を併用し, (ii) 共通トケン重み付き活性化を用いてFFN中間チャネルをプルースするCompactを提案する。
- 参考スコア(独自算出の注目度): 8.846552276586918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Making LLMs more efficient in memory, latency, and serving cost is crucial for edge deployment, interactive applications, and sustainable inference at scale. Pruning is a key technique toward this goal. However, prior pruning methods are limited: width pruning often breaks the standard transformer layout or requires custom inference code, while depth pruning removes entire layers and can cause abrupt accuracy drops. In this work, we propose COMPACT, which jointly (i) prunes rare vocabulary to shrink embedding/unembedding and (ii) prunes FFN intermediate channels using common-token-weighted activations, aligning importance with the post-pruning token distribution. COMPACT enjoys merits of both depth and width pruning, such as: deployment-friendliness (keeps a standard transformer architecture), scale-adaptivity (trade off vocab vs. FFN pruning), training-free operation with competitive pruning time, and strong memory savings alongside throughput gains. Experiments across Qwen, LLaMA, and Gemma families (0.5B-70B) show state-of-the-art downstream task performance at similar or higher pruning ratios, with substantial reductions in parameters, GPU memory, and end-to-end latency.
- Abstract(参考訳): LLMをメモリ、レイテンシ、サービスコストでより効率的にすることは、エッジデプロイメント、インタラクティブアプリケーション、大規模で持続可能な推論に不可欠である。
プルーニングは、この目標に向けた重要なテクニックです。
幅のプルーニングは標準のトランスフォーマーレイアウトを壊したり、カスタムの推論コードを必要とすることが多いが、ディーププププルーニングは層全体を取り除き、突然の精度低下を引き起こす可能性がある。
本稿では,共同で提案するCompactを提案する。
一 埋設・埋設を縮小する希少な語彙
(II)コモントケン重み付きアクティベーションを用いたFFN中間チャネルのプルーネとポストプルーニングトークン分布の整合性について検討した。
デプロイメントフレンドリさ(標準的なトランスフォーマーアーキテクチャのキープ)、スケール適応性(VocabとFFNのプルーニングのトラドオフ)、競合するプルーニング時間によるトレーニングなしの操作、スループット向上に伴う強いメモリ節約など、深さと幅のプルーニングのメリットがある。
Qwen、LLaMA、Gemmaファミリ(0.5B-70B)にわたる実験では、パラメータ、GPUメモリ、エンドツーエンドのレイテンシを大幅に削減し、同等または高いプルーニング比率で最先端のダウンストリームタスクのパフォーマンスを示している。
関連論文リスト
- SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - Interspace Pruning: Using Adaptive Filter Representations to Improve
Training of Sparse CNNs [69.3939291118954]
非構造プルーニングは畳み込みニューラルネットワーク(CNN)のメモリフットプリントを削減するのに適している
標準非構造化プルーニング(SP)はフィルタ要素をゼロにすることでCNNのメモリフットプリントを削減する。
既存のプルーニング法を改善する汎用ツールであるインタースペースプルーニング(IP)を導入する。
論文 参考訳(メタデータ) (2022-03-15T11:50:45Z) - MLPruning: A Multilevel Structured Pruning Framework for
Transformer-based Models [78.45898846056303]
プルーニングは、大きな自然言語処理モデルに関連するメモリフットプリントと計算コストを削減する効果的な方法である。
我々は,頭部刈り込み,行刈り,ブロックワイズ刈りという3つの異なるレベルの構造化刈り込みを利用する,新しいマルチレベル構造化刈り込みフレームワークを開発した。
論文 参考訳(メタデータ) (2021-05-30T22:00:44Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。