論文の概要: Layer-Adaptive State Pruning for Deep State Space Models
- arxiv url: http://arxiv.org/abs/2411.02824v1
- Date: Tue, 05 Nov 2024 05:50:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:58:09.614655
- Title: Layer-Adaptive State Pruning for Deep State Space Models
- Title(参考訳): 深部宇宙モデルのための層適応型状態プラニング
- Authors: Minseon Gwak, Seongrok Moon, Joohwan Ko, PooGyeon Park,
- Abstract要約: SSMのための構造化プルーニング法、Layer-Adaptive STate pruning (LAST) を提供する。
最後のスコアは、各状態のサブシステムの$mathcalH_infty$ノルムと層単位のエネルギー正規化を用いて評価される。
平均的な33%の州は、再学習せずに、0.52%の精度で性能を保ち、マルチインプットのマルチアウトプットSSMでは精度が低下することを示した。
- 参考スコア(独自算出の注目度): 1.5749416770494706
- License:
- Abstract: Due to the lack of state dimension optimization methods, deep state space models (SSMs) have sacrificed model capacity, training search space, or stability to alleviate computational costs caused by high state dimensions. In this work, we provide a structured pruning method for SSMs, Layer-Adaptive STate pruning (LAST), which reduces the state dimension of each layer in minimizing model-level energy loss by extending modal truncation for a single system. LAST scores are evaluated using $\mathcal{H}_{\infty}$ norms of subsystems for each state and layer-wise energy normalization. The scores serve as global pruning criteria, enabling cross-layer comparison of states and layer-adaptive pruning. Across various sequence benchmarks, LAST optimizes previous SSMs, revealing the redundancy and compressibility of their state spaces. Notably, we demonstrate that, on average, pruning 33% of states still maintains performance with 0.52% accuracy loss in multi-input multi-output SSMs without retraining. Code is available at $\href{https://github.com/msgwak/LAST}{\text{this https URL}}$.
- Abstract(参考訳): 状態次元最適化手法の欠如により、ディープ・ステート・スペース・モデル(SSM)はモデル容量、探索空間の訓練、あるいは高次元による計算コストを軽減するための安定性を犠牲にした。
本研究では,SSMにおける構造的プルーニング手法であるLayer-Adaptive STate pruning (LAST) を提案する。
LASTスコアは、各状態に対するサブシステムのノルムと層単位のエネルギー正規化を用いて評価される。
スコアはグローバルプルーニング基準として機能し、状態と層適応プルーニングの層間比較を可能にする。
様々なシーケンスベンチマークを通じて、LASTは以前のSSMを最適化し、状態空間の冗長性と圧縮性を明らかにする。
特に,マルチインプットマルチアウトプットSSMでは,平均33%のプルーニング状態が再現することなく0.52%の精度で性能を維持していることを示す。
コードは $\href{https://github.com/msgwak/LAST}{\text{this https URL}}$.com で入手できる。
関連論文リスト
- Gradient Multi-Normalization for Stateless and Scalable LLM Training [16.037614012166063]
大規模言語モデル(LLM)のトレーニングは通常、コンバージェンスを加速するために追加のステート情報を格納するAdamのようなアダプティブに依存している。
SWAN (Ma et al., 2024) のような最近の取り組みは、状態の必要性を排除し、瞬時勾配に適用したマルチステップ前処理手順により、Adamに匹敵する性能を達成することでこの問題に対処している。
複数の基準に従って勾配を正規化するステートレス勾配を設計するための新しいフレームワークを導入する。最大10億のパラメータを持つ事前学習LLaMAモデルの実験は、Adamよりも3倍のスピードアップを示し、メモリ要求を大幅に削減し、他のメモリ効率のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-10T18:09:53Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - TeZO: Empowering the Low-Rankness on the Temporal Dimension in the Zeroth-Order Optimization for Fine-tuning LLMs [58.19080159470868]
モデルと時間次元の両方にわたって低ランク度をキャプチャする新しい低ランクZO推定器TeZOを提案する。
具体的には、時間次元に沿ったZO摂動を3次元テンソルとして表現し、Canonical Polyadic Decomposition (CPD)を用いて各低ランク2次元行列を抽出する。
論文 参考訳(メタデータ) (2025-01-31T11:34:03Z) - SWAN: SGD with Normalization and Whitening Enables Stateless LLM Training [16.037614012166063]
Gradient Descent(SGD)は、トレーニング中に状態変数をトラッキングしないため、ステートレスで拡張性がある。
本研究では,SGDを非定常的に前処理することで,LLMのトレーニングを行うAdamと同じ性能が得られることを示す。
正規化は勾配を安定化させ,損失景観の局所的な曲率に反することを示す。これによってSWAN (SGD with Whitening and Normalization) が成立し,任意の状態を保存する必要がなくなる。
論文 参考訳(メタデータ) (2024-12-17T18:13:18Z) - Efficient Adaptive Optimization via Subset-Norm and Subspace-Momentum: Fast, Memory-Reduced Training with Convergence Guarantees [5.399838579600896]
本稿では,メモリ最適化のための2つの補完手法を提案する。
1つのテクニックであるSubset-Normは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
別の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースで削減する。
論文 参考訳(メタデータ) (2024-11-11T16:48:07Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - Systematic Investigation of Sparse Perturbed Sharpness-Aware
Minimization Optimizer [158.2634766682187]
ディープニューラルネットワークは、複雑で非構造的なロスランドスケープのため、しばしば一般化の貧弱さに悩まされる。
SharpnessAware Minimization (SAM) は、摂動を加える際の景観の変化を最小限に抑えることで損失を平滑化するポピュラーなソリューションである。
本稿では,二元マスクによる摂動を効果的かつ効果的に行う訓練手法であるスパースSAMを提案する。
論文 参考訳(メタデータ) (2023-06-30T09:33:41Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。