論文の概要: StableSSM: Alleviating the Curse of Memory in State-space Models through
Stable Reparameterization
- arxiv url: http://arxiv.org/abs/2311.14495v1
- Date: Fri, 24 Nov 2023 14:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:00:24.870380
- Title: StableSSM: Alleviating the Curse of Memory in State-space Models through
Stable Reparameterization
- Title(参考訳): StableSSM: 安定再パラメータ化による状態空間モデルのメモリ曲線の緩和
- Authors: Shida Wang, Qianxiao Li
- Abstract要約: 再パラメータ化のない状態空間モデルは従来のRNNと同様のメモリ制限を示す。
本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の帰結」を同定する。
- 参考スコア(独自算出の注目度): 15.01169637526044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the long-term memory learning capabilities of
state-space models (SSMs) from the perspective of parameterization. We prove
that state-space models without any reparameterization exhibit a memory
limitation similar to that of traditional RNNs: the target relationships that
can be stably approximated by state-space models must have an exponential
decaying memory. Our analysis identifies this "curse of memory" as a result of
the recurrent weights converging to a stability boundary, suggesting that a
reparameterization technique can be effective. To this end, we introduce a
class of reparameterization techniques for SSMs that effectively lift its
memory limitations. Besides improving approximation capabilities, we further
illustrate that a principled choice of reparameterization scheme can also
enhance optimization stability. We validate our findings using synthetic
datasets and language models.
- Abstract(参考訳): 本稿では,パラメータ化の観点から,状態空間モデル(SSM)の長期記憶学習能力について検討する。
我々は、再パラメータ化のない状態空間モデルが従来のrnnと同じようなメモリ制限を示すことを証明している: 状態空間モデルによって安定的に近似できる対象関係は指数的減衰メモリを持つ必要がある。
本解析では, この「記憶の曲線」を, 安定境界に収束する繰り返し重みの結果として同定し, 再パラメータ化手法の有効性を示唆する。
そこで本稿では,SSMのメモリ制限を効果的に解消する手法について紹介する。
近似能力の向上に加えて,再パラメータ化スキームの原理選択によって最適化安定性が向上することを示す。
結果は合成データセットと言語モデルを用いて検証した。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Should We Learn Most Likely Functions or Parameters? [51.133793272222874]
モデルとデータによって示唆される最も可能性の高い関数を直接推定する利点と欠点について検討する。
関数空間MAP推定は, より平坦な最小化, 一般化, オーバーフィッティングの改善につながる可能性がある。
論文 参考訳(メタデータ) (2023-11-27T16:39:55Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Multi-fidelity reduced-order surrogate modeling [5.346062841242067]
我々は,次元削減と多要素ニューラルネットワークのサロゲートを組み合わせた新しいデータ駆動型戦略を提案する。
このサロゲート法により不安定性と過渡性の開始が良好に捉えられることを示す。
論文 参考訳(メタデータ) (2023-09-01T08:16:53Z) - PriorCVAE: scalable MCMC parameter inference with Bayesian deep
generative modelling [12.820453440015553]
近年、可変オートエンコーダ(VAE)のような深層生成モデルを用いてGPプリエントを符号化できることが示されている。
MCMC推論において、VAEが元のプリミティブのドロップイン置換としてどのように機能するかを示す。
ODEの解を符号化するために、PresideCVAEを提案する。
論文 参考訳(メタデータ) (2023-04-09T20:23:26Z) - Counting Phases and Faces Using Bayesian Thermodynamic Integration [77.34726150561087]
本稿では,2パラメータ統計力学系における熱力学関数と位相境界の再構成手法を提案する。
提案手法を用いて,IsingモデルとTASEPの分割関数と位相図を正確に再構成する。
論文 参考訳(メタデータ) (2022-05-18T17:11:23Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - On the Sparsity of Neural Machine Translation Models [65.49762428553345]
性能向上のために冗長パラメータを再利用できるかどうかを検討する。
実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
論文 参考訳(メタデータ) (2020-10-06T11:47:20Z) - Misspecification-robust likelihood-free inference in high dimensions [9.514562526751481]
本稿では,ベイズ最適化に基づく近似離散関数の確率的手法による拡張を提案する。
提案手法は,高次元パラメータ空間に対する計算スケーラビリティを,各パラメータの別個の取得関数と相違点を用いて達成する。
本手法は,100次元空間における標準例による計算効率のよい推論を成功させ,既存のモジュール化ABC法と比較した。
論文 参考訳(メタデータ) (2020-02-21T16:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。