論文の概要: Learning Method for S4 with Diagonal State Space Layers using Balanced
Truncation
- arxiv url: http://arxiv.org/abs/2402.15993v2
- Date: Tue, 5 Mar 2024 05:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 23:37:01.540212
- Title: Learning Method for S4 with Diagonal State Space Layers using Balanced
Truncation
- Title(参考訳): balanced truncationを用いた対角状態空間層を有するs4の学習法
- Authors: Haruka Ezoe and Kazuhiro Sato
- Abstract要約: 直交状態空間層を組み込んだ構造化状態空間系列(S4)モデルの新たな学習手法を提案する。
この方法は,センサデータ分析やリアルタイム分析など,エッジインテリジェンスアプリケーションにおける時系列データの処理に適した方法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel learning method for Structured State Space Sequence (S4)
models incorporating Diagonal State Space (DSS) layers, tailored for processing
long-sequence data in edge intelligence applications, including sensor data
analysis and real-time analytics. This method utilizes the balanced truncation,
a prevalent model reduction technique in control theory, applied specifically
to DSS layers to reduce computational costs during inference. By leveraging
parameters from the reduced model, we refine the initialization process of S4
models, outperforming the widely used Skew-HiPPO initialization in terms of
performance. Numerical experiments demonstrate that our trained S4 models with
DSS layers surpass conventionally trained models in accuracy and efficiency
metrics. Furthermore, our observations reveal a positive correlation: higher
accuracy in the original model consistently leads to increased accuracy in
models trained using our method, suggesting that our approach effectively
leverages the strengths of the original model.
- Abstract(参考訳): 本研究では,センサデータ解析やリアルタイム解析など,エッジインテリジェンスアプリケーションにおける長期データ処理に適した,対角状態空間(DSS)層を組み込んだ構造化状態空間シーケンス(S4)モデルの新たな学習手法を提案する。
本手法は,DSS層に適用された制御理論におけるモデル縮小手法であるバランストルーニケーションを用いて,推論時の計算コストを削減する。
縮小モデルからパラメータを利用することにより、S4モデルの初期化プロセスが洗練され、広く使われているSkiw-HiPPO初期化よりも性能が向上する。
数値実験により,dss層を有するs4モデルが従来のモデルよりも精度と効率の指標において優れていた。
さらに,本手法を用いて訓練したモデルでは,原モデルの精度が常に向上し,本手法が原モデルの強度を効果的に活用できることが示唆された。
関連論文リスト
- Robustifying State-space Models for Long Sequences via Approximate
Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T23:36:13Z) - A Neural State-Space Model Approach to Efficient Speech Separation [34.38911304755453]
ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiの相容れない性能を示した。
我々のS4M-tinyモデル(1.8Mパラメータ)は、9.2の乗算演算(MAC)しか持たない雑音条件下で、注意に基づくセプフォーマ(26.0Mパラメータ)を超える。
論文 参考訳(メタデータ) (2023-05-26T13:47:11Z) - Counterfactual Outcome Prediction using Structured State Space Model [0.0]
処理効果ニューラル制御微分方程式(TE-CDE)と構造化状態空間モデル(S4Model)の2つのモデルの性能を比較した。
S4Modelは、長距離依存のモデリングがより効率的で、トレーニングも簡単です。
この結果から, 状態空間モデルが長手データにおける実測結果予測に有望なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-16T06:32:43Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Consistency and Monotonicity Regularization for Neural Knowledge Tracing [50.92661409499299]
人間の知識獲得を追跡する知識追跡(KT)は、オンライン学習と教育におけるAIの中心的なコンポーネントです。
本稿では, 新たなデータ拡張, 代替, 挿入, 削除の3種類と, 対応する正規化損失を提案する。
さまざまなKTベンチマークに関する広範な実験は、私たちの正規化スキームがモデルのパフォーマンスを一貫して改善することを示しています。
論文 参考訳(メタデータ) (2021-05-03T02:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。