Fugu-MT 論文翻訳(概要): StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization

論文の概要: StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization

arxiv url: http://arxiv.org/abs/2311.14495v1
Date: Fri, 24 Nov 2023 14:08:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 15:00:24.870380
Title: StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization
Title（参考訳）: StableSSM: 安定再パラメータ化による状態空間モデルのメモリ曲線の緩和
Authors: Shida Wang, Qianxiao Li
Abstract要約: 再パラメータ化のない状態空間モデルは従来のRNNと同様のメモリ制限を示す。本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の帰結」を同定する。
参考スコア（独自算出の注目度）: 15.01169637526044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we investigate the long-term memory learning capabilities of state-space models (SSMs) from the perspective of parameterization. We prove that state-space models without any reparameterization exhibit a memory limitation similar to that of traditional RNNs: the target relationships that can be stably approximated by state-space models must have an exponential decaying memory. Our analysis identifies this "curse of memory" as a result of the recurrent weights converging to a stability boundary, suggesting that a reparameterization technique can be effective. To this end, we introduce a class of reparameterization techniques for SSMs that effectively lift its memory limitations. Besides improving approximation capabilities, we further illustrate that a principled choice of reparameterization scheme can also enhance optimization stability. We validate our findings using synthetic datasets and language models.
Abstract（参考訳）: 本稿では,パラメータ化の観点から,状態空間モデル(SSM)の長期記憶学習能力について検討する。我々は、再パラメータ化のない状態空間モデルが従来のrnnと同じようなメモリ制限を示すことを証明している: 状態空間モデルによって安定的に近似できる対象関係は指数的減衰メモリを持つ必要がある。本解析では, この「記憶の曲線」を, 安定境界に収束する繰り返し重みの結果として同定し, 再パラメータ化手法の有効性を示唆する。そこで本稿では,SSMのメモリ制限を効果的に解消する手法について紹介する。近似能力の向上に加えて,再パラメータ化スキームの原理選択によって最適化安定性が向上することを示す。結果は合成データセットと言語モデルを用いて検証した。

関連論文リスト

Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳（メタデータ） (2025-05-26T16:12:41Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
Dynamic Memory-enhanced Transformer for Hyperspectral Image Classification [3.5093938502961763]
ハイパースペクトル画像(HSI)分類は、複雑な空間スペクトル相関のため、依然として困難な課題である。既存のトランスモデルは、長距離依存を捉えるのに優れているが、情報冗長性と注意力の非効率さに悩まされることが多い。 MemFormerは、動的メモリモジュールを反復的に洗練するメモリ強化型マルチヘッドアテンションメカニズムを導入している。動的メモリ富化戦略は、複雑な空間的およびスペクトル的依存関係を段階的にキャプチャし、より表現力のある特徴表現をもたらす。
論文参考訳（メタデータ） (2025-04-17T17:43:34Z)
Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration [0.0]
新しいメカニズム、Synaptic Resonanceは、トレーニングと推論中に関連する記憶経路を動的に強化するために導入された。オープンソースの言語モデルを用いて行った評価は、パープレキシティの低減、文脈的コヒーレンスの向上、入力雑音に対するロバスト性の向上を示す。
論文参考訳（メタデータ） (2025-02-15T07:06:10Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Mathematical Formalism for Memory Compression in Selective State Space Models [0.0]
状態空間モデル(SSM)は、シーケンスデータの長距離依存性をモデル化するための強力なフレームワークとして登場した。我々は、選択状態空間モデルにおけるメモリ圧縮を理解するための厳密な数学的枠組みを開発する。選択型SSMは従来のRNNモデルと比較してメモリ効率と処理速度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-04T05:45:48Z)
On latent dynamics learning in nonlinear reduced order modeling [0.6249768559720122]
本稿では,パラメータ化非線形時間依存PDEの次数モデリングのための潜在力学モデル(LDM)の数学的枠組みを提案する。フルオーダーモデル (FOM) 解の LDM 近似に対する誤差と安定性の推定を導出するために, 時間連続的な設定を用いる。ディープニューラルネットワークは離散LDM成分を近似し、FOMに関して有界近似誤差を提供する。
論文参考訳（メタデータ） (2024-08-27T16:35:06Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Multi-fidelity reduced-order surrogate modeling [5.346062841242067]
我々は,次元削減と多要素ニューラルネットワークのサロゲートを組み合わせた新しいデータ駆動型戦略を提案する。このサロゲート法により不安定性と過渡性の開始が良好に捉えられることを示す。
論文参考訳（メタデータ） (2023-09-01T08:16:53Z)
Counting Phases and Faces Using Bayesian Thermodynamic Integration [77.34726150561087]
本稿では,2パラメータ統計力学系における熱力学関数と位相境界の再構成手法を提案する。提案手法を用いて,IsingモデルとTASEPの分割関数と位相図を正確に再構成する。
論文参考訳（メタデータ） (2022-05-18T17:11:23Z)
MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文参考訳（メタデータ） (2021-06-03T12:59:16Z)
On the Sparsity of Neural Machine Translation Models [65.49762428553345]
性能向上のために冗長パラメータを再利用できるかどうかを検討する。実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
論文参考訳（メタデータ） (2020-10-06T11:47:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。