論文の概要: StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization
- arxiv url: http://arxiv.org/abs/2311.14495v3
- Date: Thu, 16 May 2024 22:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 20:23:25.399590
- Title: StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization
- Title(参考訳): StableSSM: 安定再パラメータ化による状態空間モデルのメモリ曲線の緩和
- Authors: Shida Wang, Qianxiao Li,
- Abstract要約: 再パラメータ化のない状態空間モデルは従来のRNNと同様のメモリ制限を示す。
本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の帰結」を同定する。
- 参考スコア(独自算出の注目度): 12.707050104493218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the long-term memory learning capabilities of state-space models (SSMs) from the perspective of parameterization. We prove that state-space models without any reparameterization exhibit a memory limitation similar to that of traditional RNNs: the target relationships that can be stably approximated by state-space models must have an exponential decaying memory. Our analysis identifies this "curse of memory" as a result of the recurrent weights converging to a stability boundary, suggesting that a reparameterization technique can be effective. To this end, we introduce a class of reparameterization techniques for SSMs that effectively lift its memory limitations. Besides improving approximation capabilities, we further illustrate that a principled choice of reparameterization scheme can also enhance optimization stability. We validate our findings using synthetic datasets, language models and image classifications.
- Abstract(参考訳): 本稿では,パラメータ化の観点から,状態空間モデル(SSM)の長期記憶学習能力について検討する。
状態空間モデルによって安定に近似できる対象関係は指数的に減衰するメモリを持つ必要がある。
本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の曲線」を同定し, 再パラメータ化技術が有効であることを示す。
そこで本稿では,SSMのメモリ制限を効果的に解消する手法について紹介する。
近似能力の向上に加えて,再パラメータ化方式の原理的選択により最適化安定性が向上することを示す。
本研究は,合成データセット,言語モデル,画像分類を用いて検証する。
関連論文リスト
- Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration [0.0]
新しいメカニズム、Synaptic Resonanceは、トレーニングと推論中に関連する記憶経路を動的に強化するために導入された。
オープンソースの言語モデルを用いて行った評価は、パープレキシティの低減、文脈的コヒーレンスの向上、入力雑音に対するロバスト性の向上を示す。
論文 参考訳(メタデータ) (2025-02-15T07:06:10Z) - Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Mathematical Formalism for Memory Compression in Selective State Space Models [0.0]
状態空間モデル(SSM)は、シーケンスデータの長距離依存性をモデル化するための強力なフレームワークとして登場した。
我々は、選択状態空間モデルにおけるメモリ圧縮を理解するための厳密な数学的枠組みを開発する。
選択型SSMは従来のRNNモデルと比較してメモリ効率と処理速度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-04T05:45:48Z) - On latent dynamics learning in nonlinear reduced order modeling [0.6249768559720122]
本稿では,パラメータ化非線形時間依存PDEの次数モデリングのための潜在力学モデル(LDM)の数学的枠組みを提案する。
フルオーダーモデル (FOM) 解の LDM 近似に対する誤差と安定性の推定を導出するために, 時間連続的な設定を用いる。
ディープニューラルネットワークは離散LDM成分を近似し、FOMに関して有界近似誤差を提供する。
論文 参考訳(メタデータ) (2024-08-27T16:35:06Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - On the Sparsity of Neural Machine Translation Models [65.49762428553345]
性能向上のために冗長パラメータを再利用できるかどうかを検討する。
実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
論文 参考訳(メタデータ) (2020-10-06T11:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。