Fugu-MT 論文翻訳(概要): SMR: State Memory Replay for Long Sequence Modeling

論文の概要: SMR: State Memory Replay for Long Sequence Modeling

arxiv url: http://arxiv.org/abs/2405.17534v1
Date: Mon, 27 May 2024 17:53:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 23:40:54.872618
Title: SMR: State Memory Replay for Long Sequence Modeling
Title（参考訳）: SMR:ロングシーケンスモデリングのためのステートメモリリプレイ
Authors: Biqing Qi, Junqi Gao, Kaiyan Zhang, Dong Li, Jianxing Liu, Ligang Wu, Bowen Zhou,
Abstract要約: 本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
参考スコア（独自算出の注目度）: 19.755738298836526
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the promising performance of state space models (SSMs) in long sequence modeling, limitations still exist. Advanced SSMs like S5 and S6 (Mamba) in addressing non-uniform sampling, their recursive structures impede efficient SSM computation via convolution. To overcome compatibility limitations in parallel convolutional computation, this paper proposes a novel non-recursive non-uniform sample processing strategy. Theoretical analysis of SSMs through the lens of Event-Triggered Control (ETC) theory reveals the Non-Stable State (NSS) problem, where deviations from sampling point requirements lead to error transmission and accumulation, causing the divergence of the SSM's hidden state. Our analysis further reveals that adjustments of input sequences with early memories can mitigate the NSS problem, achieving Sampling Step Adaptation (SSA). Building on this insight, we introduce a simple yet effective plug-and-play mechanism, State Memory Replay (SMR), which utilizes learnable memories to adjust the current state with multi-step information for generalization at sampling points different from those in the training data. This enables SSMs to stably model varying sampling points. Experiments on long-range modeling tasks in autoregressive language modeling and Long Range Arena demonstrate the general effectiveness of the SMR mechanism for a series of SSM models.
Abstract（参考訳）: 長いシーケンスモデリングにおける状態空間モデル(SSM)の有望な性能にもかかわらず、制限は今も残っている。 S5やS6(Mamba)のような高度なSSMは、一様でないサンプリングに対処し、再帰的な構造は畳み込みによる効率的なSSM計算を妨げる。本稿では,並列畳み込み計算における互換性の限界を克服するために,新しい非再帰的非一様サンプル処理戦略を提案する。イベントトリガード制御(ETC)理論のレンズによるSSMの理論解析は、サンプリングポイント要求からの逸脱がエラーの伝達と蓄積を引き起こす非安定状態(NSS)問題を明らかにし、SSMの隠れ状態のばらつきを引き起こす。さらに、初期記憶による入力シーケンスの調整により、サンプリングステップ適応(SSA)を達成し、NAS問題を緩和できることを明らかにした。この知見に基づいて、学習可能な記憶を利用して、学習データとは異なるサンプリングポイントでの一般化のための多段階情報を用いて現在の状態を調整できる、シンプルで効果的なプラグアンドプレイ機構であるState Memory Replay(SMR)を導入する。これにより、SSMは安定して様々なサンプリングポイントをモデル化できる。自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。

関連論文リスト

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization [23.899829316926724]
TFL(Temporal Forgery Localization)は、ビデオとオーディオの操作されたセグメントを正確に識別することを目的としており、セキュリティと法医学に強い解釈性を提供する。最近のステート・スペース・モデル(SSM)は正確な時間的推論において有望であるが、TFLにおけるそれらの使用は曖昧な境界線、希薄な偽造物、限られた長距離モデリングによって妨げられている。本稿では,これらの課題に対処するため,変形可能な動的機構とリレー機構を備えたSSMを改良したDeformTraceを提案する。
論文参考訳（メタデータ） (2026-03-05T07:19:50Z)
MS-SSM: A Multi-Scale State Space Model for Efficient Sequence Modeling [60.648359990090846]
状態空間モデル(SSM)は、最近、計算コストのかかるシーケンスモデルに対する効率的な代替手段として注目されている。本稿では,複数の解像度にまたがるシーケンスダイナミクスを表現するマルチスケールSSMフレームワークを提案し,各解像度を特殊な状態空間ダイナミクスで処理する。
論文参考訳（メタデータ） (2025-12-29T19:36:28Z)
Compute-in-Memory Implementation of State Space Models for Event Sequence Processing [10.673140569452274]
状態空間モデル(SSM)は、長いシーケンス処理のための強力なフレームワークとして登場した。本稿では,リアルタイムなイベント駆動処理を実現するために,エネルギー効率の高い計算インメモリハードウェアにSSMを実装する手法を提案する。
論文参考訳（メタデータ） (2025-11-17T21:06:52Z)
First-order State Space Model for Lightweight Image Super-resolution [31.445028679758106]
状態空間モデル(SSM)は、NLPタスクにおいて有望であり、視覚タスクにますます適用されている。本稿では,最初のMambaモジュールを改善するために,FSSM(First-order State Space Model)を提案する。 FSSMは5つのベンチマークデータセット上でのMambaIRの性能を改善した。
論文参考訳（メタデータ） (2025-09-10T10:00:43Z)
QS4D: Quantization-aware training for efficient hardware deployment of structured state-space sequential models [0.8474310104568011]
構造化状態空間モデル(Structured State Space Model, SSM)は、ディープラーニングモデルの新しいクラスとして登場した。 QATは、様々なパフォーマンス指標において、SSMの複雑さを最大2桁まで減少させることができる。その結果,QATはアナログノイズに対する堅牢性を高め,構造的プルーニングを可能にすることがわかった。
論文参考訳（メタデータ） (2025-07-08T15:19:14Z)
Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文参考訳（メタデータ） (2025-05-24T14:53:07Z)
Learning to Dissipate Energy in Oscillatory State-Space Models [55.09730499143998]
状態空間モデル (SSM) はシーケンス学習のためのネットワークのクラスである。我々は,D-LinOSSがLinOSSの手法を長距離学習タスクで一貫して上回っていることを示す。
論文参考訳（メタデータ） (2025-05-17T23:15:17Z)
A Survey on Structured State Space Sequence (S4) Models [0.0]
シーケンスモデリングの最近の進歩は、構造化状態空間モデル(Structured State Space Models, SSMs)の出現につながっている。 SSMは構造的再帰と状態空間表現を利用して、線形またはニア線形複雑度で優れたロングシーケンス処理を実現する。この調査は、AIとディープラーニングにおけるSSMベースのアーキテクチャの進歩、トレードオフ、今後の方向性を詳述した、研究者や実践者の構造化ガイドとして機能する。
論文参考訳（メタデータ） (2025-03-22T01:55:32Z)
Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文参考訳（メタデータ） (2025-02-28T14:08:30Z)
Deep Learning-based Approaches for State Space Models: A Selective Review [15.295157876811066]
状態空間モデル(SSM)は動的システム解析のための強力なフレームワークを提供する。本稿では、SSMに対するディープニューラルネットワークに基づくアプローチの最近の進歩を選択的にレビューする。
論文参考訳（メタデータ） (2024-12-15T15:04:35Z)
Nonlinear Assimilation with Score-based Sequential Langevin Sampling [5.107329143106734]
SSLSは同化プロセスを予測と更新の一連のステップに分解する。テレビ距離におけるSSLSの収束は,一定の条件下で解析される。 SSLSは、推定状態に関連する不確実性を効果的に定量化し、エラー校正の可能性を強調している。
論文参考訳（メタデータ） (2024-11-20T16:31:46Z)
Provable Benefits of Complex Parameterizations for Structured State Space Models [51.90574950170374]
構造化状態空間モデル (Structured State Space Model, SSM) は、指定された構造に固執する線形力学系である。パラメータ化が現実の典型的なニューラルネットワークモジュールとは対照的に、SSMは複雑なパラメータ化を使用することが多い。本稿では,実対角 SSM と複素対角 SSM の形式的ギャップを確立することにより,SSM の複雑なパラメータ化の利点を説明する。
論文参考訳（メタデータ） (2024-10-17T22:35:50Z)
Mathematical Formalism for Memory Compression in Selective State Space Models [0.0]
状態空間モデル(SSM)は、シーケンスデータの長距離依存性をモデル化するための強力なフレームワークとして登場した。我々は、選択状態空間モデルにおけるメモリ圧縮を理解するための厳密な数学的枠組みを開発する。選択型SSMは従来のRNNモデルと比較してメモリ効率と処理速度を大幅に向上することを示した。
論文参考訳（メタデータ） (2024-10-04T05:45:48Z)
P-SpikeSSM: Harnessing Probabilistic Spiking State Space Models for Long-Range Dependency Tasks [1.9775291915550175]
スパイキングニューラルネットワーク(SNN)は、従来のニューラルネットワークに代わる計算効率が高く生物学的に妥当な代替品として提案されている。長距離依存タスクのためのスケーラブルな確率的スパイク学習フレームワークを開発した。我々のモデルは、様々な長距離依存タスクにまたがるSNNモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2024-06-05T04:23:11Z)
State Space Models are Provably Comparable to Transformers in Dynamic Token Selection [41.617269918948686]
状態空間モデル(SSM)に基づくディープニューラルネットワークは、シーケンスモデリングにおいて大きな注目を集めている。 SSMは入力に応じて重要なトークンを抽出する際にトランスフォーマーに匹敵することを示す。
論文参考訳（メタデータ） (2024-05-29T12:23:48Z)
The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文参考訳（メタデータ） (2024-05-27T17:46:57Z)
HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文参考訳（メタデータ） (2024-05-22T20:20:14Z)
Synthetic location trajectory generation using categorical diffusion models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文参考訳（メタデータ） (2024-02-19T15:57:39Z)
Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文参考訳（メタデータ） (2023-12-19T21:45:38Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。 SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文参考訳（メタデータ） (2023-08-19T08:17:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。