論文の概要: Model Compression Method for S4 with Diagonal State Space Layers using Balanced Truncation
- arxiv url: http://arxiv.org/abs/2402.15993v3
- Date: Mon, 1 Jul 2024 07:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:58:55.536818
- Title: Model Compression Method for S4 with Diagonal State Space Layers using Balanced Truncation
- Title(参考訳): 平衡トラニケーションを用いた対角状態空間層を持つS4のモデル圧縮法
- Authors: Haruka Ezoe, Kazuhiro Sato,
- Abstract要約: 本稿では, モデル圧縮手法として, 事前学習したS4モデルのDSS層に適用した, 制御理論における一般的なモデル縮小手法であるバランストランケーションを提案する。
数値実験により,従来のSkiw-HiPPOを用いたモデルよりも,トレーニングモデルとバランスの取れたトランケーションが優れていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To implement deep learning models on edge devices, model compression methods have been widely recognized as useful. However, it remains unclear which model compression methods are effective for Structured State Space Sequence (S4) models incorporating Diagonal State Space (DSS) layers, tailored for processing long-sequence data. In this paper, we propose to use the balanced truncation, a prevalent model reduction technique in control theory, applied specifically to DSS layers in pre-trained S4 model as a novel model compression method. Moreover, we propose using the reduced model parameters obtained by the balanced truncation as initial parameters of S4 models with DSS layers during the main training process. Numerical experiments demonstrate that our trained models combined with the balanced truncation surpass conventionally trained models with Skew-HiPPO initialization in accuracy, even with fewer parameters. Furthermore, our observations reveal a positive correlation: higher accuracy in the original model consistently leads to increased accuracy in models trained using our model compression method, suggesting that our approach effectively leverages the strengths of the original model.
- Abstract(参考訳): エッジデバイス上でディープラーニングモデルを実装するために,モデル圧縮手法は有用であると広く認識されている。
しかし、長周期データ処理に適した対角線空間(DSS)層を組み込んだ構造化状態空間シーケンス(S4)モデルに対して、どのモデル圧縮法が有効かは定かではない。
本稿では,従来のモデル圧縮手法として,事前学習したS4モデルのDSS層に対して,制御理論における一般的なモデル縮小手法であるバランスド・トランケーションを適用することを提案する。
さらに,本研究では,主学習過程におけるDSS層を有するS4モデルの初期パラメータとして,バランストランケーションによって得られた縮小モデルパラメータを提案する。
数値実験により, 従来の訓練モデルよりも少ないパラメータでも, スキュー・ヒポの初期化を精度良く行うことができることがわかった。
さらに, モデル圧縮法を用いて訓練したモデルでは, 元のモデルの精度が常に向上し, 元のモデルの強度を効果的に活用できる可能性が示唆された。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Data-driven Nonlinear Model Reduction using Koopman Theory: Integrated
Control Form and NMPC Case Study [56.283944756315066]
そこで本研究では,遅延座標符号化と全状態復号化を組み合わせた汎用モデル構造を提案し,Koopmanモデリングと状態推定を統合した。
ケーススタディでは,本手法が正確な制御モデルを提供し,高純度極低温蒸留塔のリアルタイム非線形予測制御を可能にすることを実証している。
論文 参考訳(メタデータ) (2024-01-09T11:54:54Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Robustifying State-space Models for Long Sequences via Approximate
Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T23:36:13Z) - A Neural State-Space Model Approach to Efficient Speech Separation [34.38911304755453]
ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiの相容れない性能を示した。
我々のS4M-tinyモデル(1.8Mパラメータ)は、9.2の乗算演算(MAC)しか持たない雑音条件下で、注意に基づくセプフォーマ(26.0Mパラメータ)を超える。
論文 参考訳(メタデータ) (2023-05-26T13:47:11Z) - Counterfactual Outcome Prediction using Structured State Space Model [0.0]
処理効果ニューラル制御微分方程式(TE-CDE)と構造化状態空間モデル(S4Model)の2つのモデルの性能を比較した。
S4Modelは、長距離依存のモデリングがより効率的で、トレーニングも簡単です。
この結果から, 状態空間モデルが長手データにおける実測結果予測に有望なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-16T06:32:43Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。