Fugu-MT 論文翻訳(概要): Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models

論文の概要: Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models

arxiv url: http://arxiv.org/abs/2501.17088v1
Date: Tue, 28 Jan 2025 17:22:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:11.210677
Title: Mamba-Shedder: Post-Transformer Compression for Efficient Selective Structured State Space Models
Title（参考訳）: Mamba-Shedder: 効率的な選択型状態空間モデルのための変圧器後圧縮
Authors: J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain,
Abstract要約: 本稿では,SSMモデル,特にMambaとそのハイブリッドモデルの圧縮について検討する。本研究では, モデルサイズと計算オーバーヘッドを低減し, 精度を保ちながら効率を向上させるため, 選択した成分を異なる粒度で除去する際の感度について検討する。提案手法は,総称してMamba-Shedderと呼ばれ,モデル性能への影響を最小限に抑えることで,モデル効率を最大1.4倍に向上できることを示す。
参考スコア（独自算出の注目度）: 1.8434042562191815
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large pre-trained models have achieved outstanding results in sequence modeling. The Transformer block and its attention mechanism have been the main drivers of the success of these models. Recently, alternative architectures, such as Selective Structured State Space Models (SSMs), have been proposed to address the inefficiencies of Transformers. This paper explores the compression of SSM-based models, particularly Mamba and its hybrids. We study the sensitivity of these models to the removal of selected components at different granularities to reduce the model size and computational overhead, thus improving their efficiency while maintaining accuracy. The proposed solutions, collectively referred to as Mamba-Shedder, achieve a speedup of up to 1.4x during inference, demonstrating that model efficiency can be improved by eliminating several redundancies with minimal impact on the overall model performance. The code is available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
Abstract（参考訳）: 大規模な事前学習モデルでは、シーケンスモデリングにおいて優れた結果が得られている。 Transformerブロックとそのアテンションメカニズムは、これらのモデルの成功の主要な要因である。近年,SSM (Selective Structured State Space Models) などの代替アーキテクチャが提案されている。本稿では,SSMモデル,特にMambaとそのハイブリッドモデルの圧縮について検討する。本研究では, モデルサイズと計算オーバーヘッドを低減し, 精度を保ちながら効率を向上させるため, 選択した成分を異なる粒度で除去する際の感度について検討する。提案手法は,総称してMamba-Shedderと呼ばれ,モデル性能への影響を最小限に抑えることで,モデル効率を最大1.4倍に向上できることを示す。コードはhttps://github.com/IntelLabs/Hardware-Aware-Aware-Automated-Machine-Learningで公開されている。

関連論文リスト

Projected Compression: Trainable Projection for Efficient Transformer Compression [2.9812951075697325]
大規模言語モデルは、パフォーマンスを向上させるために、着実に拡大している。射影圧縮は、射影モジュールを利用することでモデル重量を減らす新しいモデル圧縮技術である。実験結果から, プロジェクテッド圧縮は, 高品質モデルにおいて, 同等のハードプルーニングおよびリトレーニング手法より優れることがわかった。
論文参考訳（メタデータ） (2025-06-27T14:24:01Z)
Neural Parameter Search for Slimmer Fine-Tuned Models and Better Transfer [17.463052541838504]
微調整されたモデルは、しばしば特定のドメインの外で苦労し、かなりの冗長性を示す。近年の研究では、プルーニングされた微調整モデルと元の事前学習モデルを組み合わせることで、タスク間でモデルパラメータをマージする際の干渉を軽減することが示唆されている。微調整モデルのスリム化のためのニューラル・プルーニング(NPS-Pruning)という新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-24T14:27:20Z)
RanDeS: Randomized Delta Superposition for Multi-Model Compression [35.84370778415708]
モデルマージを圧縮・検索方式として再構成し、モデル検索中に無関係なデルタの和からタスクの干渉が発生することを示した。このアプローチは、視覚的タスクと言語タスクの両方において、干渉を大幅に低減し、パフォーマンスを向上することを示す。
論文参考訳（メタデータ） (2025-05-16T13:02:12Z)
I Know What I Don't Know: Improving Model Cascades Through Confidence Tuning [42.1160183944637]
カスケード構成の小型モデルを校正するための新しい損失関数「ゲートキーパー」を導入する。我々のアプローチは、より小さなモデルを微調整して、より大規模なモデルに複雑なタスクを遅延させながら、正しく実行できるタスクを確実に処理する。
論文参考訳（メタデータ） (2025-02-26T17:29:08Z)
Merging Feed-Forward Sublayers for Compressed Transformers [16.746335565636976]
モデル内の類似パラメータ群をマージすることで,モデル圧縮に対する新しいアプローチを提案する。具体的には、Transformerモデルでフィードフォワードサブレイヤを分離し、アライメントし、マージする。モデルフィードフォワードサブレイヤの3分の1以上を組み合わせながら、元のモデルに匹敵する性能を示す。
論文参考訳（メタデータ） (2025-01-10T17:25:11Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Transformer Layer Injection: A Novel Approach for Efficient Upscaling of Large Language Models [0.0]
Transformer Layer Injection (TLI)は、大規模言語モデル(LLM)を効率的にスケールアップする新しい手法である。提案手法は, 各K層に新しい層を注入することにより, 従来の深層アップスケーリング(DUS)技術を改善する。
論文参考訳（メタデータ） (2024-10-15T14:41:44Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。このようなモデルを注意駆動モデルとみなすことができる。この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文参考訳（メタデータ） (2024-03-03T18:58:21Z)
XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2024-02-27T08:18:02Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [7.056223012587321]
本稿では,スパースモデルの計算を高速化するために,いくつかの最適化手法を用いた高効率推論フレームワークを提案する。既存のソリューションに比べて,コストが27%削減され,品質が大幅に向上した136倍のモデルをデプロイすることが可能です。
論文参考訳（メタデータ） (2022-11-18T03:43:52Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Train Large, Then Compress: Rethinking Model Size for Efficient Training and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文参考訳（メタデータ） (2020-02-26T21:17:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。