論文の概要: SHRP: Specialized Head Routing and Pruning for Efficient Encoder Compression
- arxiv url: http://arxiv.org/abs/2512.20635v1
- Date: Wed, 03 Dec 2025 05:03:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 00:37:57.105085
- Title: SHRP: Specialized Head Routing and Pruning for Efficient Encoder Compression
- Title(参考訳): SHRP:効率的なエンコーダ圧縮のためのヘッドルーティングとプルーニング
- Authors: Zeli Su, Ziyin Zhang, Wenzheng Zhang, Zhou Liu, Guixian Xu, Wentao Zhang,
- Abstract要約: トランスフォーマーエンコーダは、自然言語理解タスクのための大規模Webサービスに広くデプロイされている。
これらの制限は主にアーキテクチャ上の冗長性、特にアテンションモジュールに起因している。
本稿では,冗長な注意ヘッドを自動的に識別し,除去する新しい構造化プルーニングフレームワークSHRPを提案する。
- 参考スコア(独自算出の注目度): 11.234631528609603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer encoders are widely deployed in large-scale web services for natural language understanding tasks such as text classification, semantic retrieval, and content ranking. However, their high inference latency and memory consumption pose significant challenges for real-time serving and scalability. These limitations stem largely from architectural redundancy, particularly in the attention module. The inherent parameter redundancy of the attention mechanism, coupled with the fact that its attention heads operate with a degree of independence, makes it particularly amenable to structured model compression. In this paper, we propose SHRP (Specialized Head Routing and Pruning), a novel structured pruning framework that automatically identifies and removes redundant attention heads while preserving most of the model's accuracy and compatibility. SHRP introduces Expert Attention, a modular design that treats each attention head as an independent expert, followed by a lightweight shared expander feed-forward network that refines their outputs. The framework employs a unified Top-1 usage-driven mechanism to jointly perform dynamic routing during training and deterministic pruning at deployment. Experimental results on the GLUE benchmark using a BERT-base encoder show that SHRP achieves 93% of the original model accuracy while reducing parameters by 48 percent. Under an extreme compression scenario where 11/12 of the layers are pruned, the model still maintains 84% accuracy and delivers a 4.2x throughput gain while reducing computation to as low as 11.5 percent of the original FLOPs, demonstrating its practical utility for large-scale and latency-sensitive web deployments.
- Abstract(参考訳): トランスフォーマーエンコーダは、テキスト分類、セマンティック検索、コンテンツランキングなどの自然言語理解タスクのために、大規模なWebサービスに広くデプロイされている。
しかし、その高い推論レイテンシとメモリ消費は、リアルタイムサービスとスケーラビリティに重大な課題をもたらす。
これらの制限は主にアーキテクチャ上の冗長性、特にアテンションモジュールに起因している。
注意機構の固有のパラメータ冗長性は、その注意ヘッドがある程度の独立性を持って動作しているという事実と相まって、構造化されたモデル圧縮に特に適している。
本稿では,モデルの精度と適合性の大部分を保ちながら,冗長な注意ヘッドを自動的に識別・除去する新しい構造化プルーニングフレームワークであるSHRPを提案する。
SHRPは、各アテンションヘッドを独立した専門家として扱うモジュール設計であるExpert Attentionを導入し、続いて出力を洗練する軽量な共有フィードフォワードネットワークを導入した。
このフレームワークでは、トレーニング中の動的ルーティングとデプロイメント時の決定論的プルーニングを共同で実行する、Top-1の利用駆動機構が統合されている。
BERTベースのエンコーダを用いたGLUEベンチマーク実験の結果,SHRPは元のモデルの精度の93%を達成し,パラメータを48%削減した。
11/12層をプルーニングする極端な圧縮シナリオの下では、このモデルは精度を84%維持し、4.2倍のスループット向上を実現し、計算を元のFLOPの11.5パーセントまで削減し、大規模で遅延に敏感なWebデプロイメントの実用性を実証している。
関連論文リスト
- Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Compression is Routing: Reconstruction Error as an Intrinsic Signal for Modular Language Models [0.0]
「この論文は、圧縮は知性である」という前提に基づいている。」
それは新しいアーキテクチャ哲学を提唱している: 圧縮はルーティングである。
超長期のコンテキストを扱うために、VRAM圧縮の新たな視点を提供する。
論文 参考訳(メタデータ) (2025-12-18T09:02:03Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - From Local to Global: Revisiting Structured Pruning Paradigms for Large Language Models [27.774067682004745]
GISP-Global Iterative Structured Pruningは、ブロックワイド正規化により、構造レベルで集約された1次、損失ベースの重要な重み付けを用いて、注目ヘッドとチャネルを除去する。
反復的なスケジュールは、ワンショットプルーニングではなく、高い間隔で精度を安定させ、中間微調整を必要とせず、パープレキシティの崩壊を緩和する。
重要度はモデルレベルの損失によって定義されるため、GISPはタスク固有の目的を自然にサポートしている。
論文 参考訳(メタデータ) (2025-10-20T19:04:09Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - Flexible Automatic Identification and Removal (FAIR)-Pruner: An Efficient Neural Network Pruning Method [11.575879702610914]
本稿では、ニューラルネットワーク構造化プルーニングの新しい手法であるフレキシブル自動識別除去(FAIR-Pruner)を提案する。
FAIR-Prunerの大きな利点は、レイヤーワイドプルーニング率を自動的に決定する能力にある。
利用スコアと復元誤差により、ユーザーは異なるプルーニング比率でプルーニングされたモデルを柔軟に取得できる。
論文 参考訳(メタデータ) (2025-08-04T10:59:07Z) - Application-Specific Component-Aware Structured Pruning of Deep Neural Networks via Soft Coefficient Optimization [1.6874375111244326]
アプリケーション固有のパフォーマンス特性が圧縮中に確実に保持されることは、依然として重要です。
構造的コヒーレントな要素群が取り除かれた構造化プルーニングでは、従来の重要な指標はこれらの重要な性能特性を維持できないことが多い。
本稿では,モデルのサイズを縮小するだけでなく,アプリケーション固有の性能制約を明示的に考慮した重要度測定フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T09:50:04Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。