Fugu-MT 論文翻訳(概要): StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization

論文の概要: StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization

arxiv url: http://arxiv.org/abs/2311.14495v3
Date: Thu, 16 May 2024 22:23:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-20 20:23:25.399590
Title: StableSSM: Alleviating the Curse of Memory in State-space Models through Stable Reparameterization
Title（参考訳）: StableSSM: 安定再パラメータ化による状態空間モデルのメモリ曲線の緩和
Authors: Shida Wang, Qianxiao Li,
Abstract要約: 再パラメータ化のない状態空間モデルは従来のRNNと同様のメモリ制限を示す。本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の帰結」を同定する。
参考スコア（独自算出の注目度）: 12.707050104493218
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we investigate the long-term memory learning capabilities of state-space models (SSMs) from the perspective of parameterization. We prove that state-space models without any reparameterization exhibit a memory limitation similar to that of traditional RNNs: the target relationships that can be stably approximated by state-space models must have an exponential decaying memory. Our analysis identifies this "curse of memory" as a result of the recurrent weights converging to a stability boundary, suggesting that a reparameterization technique can be effective. To this end, we introduce a class of reparameterization techniques for SSMs that effectively lift its memory limitations. Besides improving approximation capabilities, we further illustrate that a principled choice of reparameterization scheme can also enhance optimization stability. We validate our findings using synthetic datasets, language models and image classifications.
Abstract（参考訳）: 本稿では,パラメータ化の観点から,状態空間モデル(SSM)の長期記憶学習能力について検討する。状態空間モデルによって安定に近似できる対象関係は指数的に減衰するメモリを持つ必要がある。本分析では, 安定境界に収束するリカレント重みの結果として, この「記憶の曲線」を同定し, 再パラメータ化技術が有効であることを示す。そこで本稿では,SSMのメモリ制限を効果的に解消する手法について紹介する。近似能力の向上に加えて,再パラメータ化方式の原理的選択により最適化安定性が向上することを示す。本研究は,合成データセット,言語モデル,画像分類を用いて検証する。

関連論文リスト

Breaking the Memory Wall: Exact Analytical Differentiation via Tiled Operator-Space Evolution [3.551701030393209]
位相勾配流(PGF)は、状態空間多様体で直接操作することで正確な解析微分を計算するフレームワークである。提案手法は,最大VRAMの94%削減,スループットの23倍のO(1)メモリの複雑性を実現する。我々の研究は1つのGPU上で染色体スケールの感度解析を可能にし、理論的な無限コンテキストモデルと実用的なハードウェアの限界のギャップを埋める。
論文参考訳（メタデータ） (2025-12-28T20:27:58Z)
Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳（メタデータ） (2025-05-26T16:12:41Z)
Quantifying Memory Utilization with Effective State-Size [73.52115209375343]
「我々は、テキスト・メモリ利用の尺度を策定する。」この計量は、textitinput-invariant および textitinput-variant linear operator を持つシステムの基本的なクラスに適合する。
論文参考訳（メタデータ） (2025-04-28T08:12:30Z)
Dynamic Memory-enhanced Transformer for Hyperspectral Image Classification [3.5093938502961763]
ハイパースペクトル画像(HSI)分類は、複雑な空間スペクトル相関のため、依然として困難な課題である。既存のトランスモデルは、長距離依存を捉えるのに優れているが、情報冗長性と注意力の非効率さに悩まされることが多い。 MemFormerは、動的メモリモジュールを反復的に洗練するメモリ強化型マルチヘッドアテンションメカニズムを導入している。動的メモリ富化戦略は、複雑な空間的およびスペクトル的依存関係を段階的にキャプチャし、より表現力のある特徴表現をもたらす。
論文参考訳（メタデータ） (2025-04-17T17:43:34Z)
Exploring Synaptic Resonance in Large Language Models: A Novel Approach to Contextual Memory Integration [0.0]
新しいメカニズム、Synaptic Resonanceは、トレーニングと推論中に関連する記憶経路を動的に強化するために導入された。オープンソースの言語モデルを用いて行った評価は、パープレキシティの低減、文脈的コヒーレンスの向上、入力雑音に対するロバスト性の向上を示す。
論文参考訳（メタデータ） (2025-02-15T07:06:10Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Mathematical Formalism for Memory Compression in Selective State Space Models [0.0]
状態空間モデル(SSM)は、シーケンスデータの長距離依存性をモデル化するための強力なフレームワークとして登場した。我々は、選択状態空間モデルにおけるメモリ圧縮を理解するための厳密な数学的枠組みを開発する。選択型SSMは従来のRNNモデルと比較してメモリ効率と処理速度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-04T05:45:48Z)
On latent dynamics learning in nonlinear reduced order modeling [0.6249768559720122]
本稿では,パラメータ化非線形時間依存PDEの次数モデリングのための潜在力学モデル(LDM)の数学的枠組みを提案する。フルオーダーモデル (FOM) 解の LDM 近似に対する誤差と安定性の推定を導出するために, 時間連続的な設定を用いる。ディープニューラルネットワークは離散LDM成分を近似し、FOMに関して有界近似誤差を提供する。
論文参考訳（メタデータ） (2024-08-27T16:35:06Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文参考訳（メタデータ） (2024-02-26T05:51:47Z)
Estimation of Energy-dissipation Lower-bounds for Neuromorphic Learning-in-memory [5.073292775065559]
理想的なニューロモルフィック・ニューラル-インスパイアされた神経平衡は局所的だがパラレルなパラメータの更新に頼り、2次プログラミングからイジングマシンまで幅広い問題を解決する。本稿では,学習の内外熱力学を解析し,その結果のエネルギー効率の推定値がモデルに依存しないことを示す。結果の実用性を示すため,我々は,大規模AIワークロードにおけるエネルギー対ソリューションの指標値の低バウンドを推定するために,分析を適用した。
論文参考訳（メタデータ） (2024-02-21T21:02:11Z)
Multi-fidelity reduced-order surrogate modeling [5.346062841242067]
我々は,次元削減と多要素ニューラルネットワークのサロゲートを組み合わせた新しいデータ駆動型戦略を提案する。このサロゲート法により不安定性と過渡性の開始が良好に捉えられることを示す。
論文参考訳（メタデータ） (2023-09-01T08:16:53Z)
Counting Phases and Faces Using Bayesian Thermodynamic Integration [77.34726150561087]
本稿では,2パラメータ統計力学系における熱力学関数と位相境界の再構成手法を提案する。提案手法を用いて,IsingモデルとTASEPの分割関数と位相図を正確に再構成する。
論文参考訳（メタデータ） (2022-05-18T17:11:23Z)
MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文参考訳（メタデータ） (2021-06-03T12:59:16Z)
On the Sparsity of Neural Machine Translation Models [65.49762428553345]
性能向上のために冗長パラメータを再利用できるかどうかを検討する。実験と分析は異なるデータセットとNTTアーキテクチャで体系的に行われる。
論文参考訳（メタデータ） (2020-10-06T11:47:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。