論文の概要: EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization
- arxiv url: http://arxiv.org/abs/2402.15290v3
- Date: Sun, 06 Oct 2024 15:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:42:00.420504
- Title: EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization
- Title(参考訳): 最大テンソル畳み込みとブロック対角化による効率的な状態空間モデル
- Authors: Tongyi Liang, Han-Xiong Li,
- Abstract要約: 本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。
我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。
モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
- 参考スコア(独自算出の注目度): 5.260841516691153
- License:
- Abstract: Existing models encounter bottlenecks in balancing performance and computational efficiency when modeling long sequences. Although the state space model (SSM) has achieved remarkable success in handling long sequence tasks, it still faces the problem of large number of parameters. In order to further improve the efficiency of SSM, we propose a new state space layer based on multiple-input multiple-output SSM, called efficient SSM (eSSM). Our eSSM is built on the convolutional representation of multi-input and multi-input (MIMO) SSM. We propose a variety of effective strategies to improve the computational efficiency. The diagonalization of the system matrix first decouples the original system. Then a fast tensor convolution is proposed based on the fast Fourier transform. In addition, the block diagonalization of the SSM further reduces the model parameters and improves the model flexibility. Extensive experimental results show that the performance of the proposed model on multiple databases matches the performance of state-of-the-art models, such as S4, and is significantly better than Transformers and LSTM. In the model efficiency benchmark, the parameters of eSSM are only 12.89\% of LSTM and 13.24\% of Mamba. The training speed of eSSM is 3.94 times faster than LSTM and 1.35 times faster than Mamba. Code is available at: \href{https://github.com/leonty1/essm}{https://github.com/leonty1/essm}.
- Abstract(参考訳): 既存のモデルは、長いシーケンスをモデル化する際のパフォーマンスと計算効率のバランスのボトルネックに直面する。
状態空間モデル(SSM)は長いシーケンスタスクの処理において顕著な成功を収めてきたが、多くのパラメーターの問題に直面している。
本研究では,SSMの効率をさらに向上するために,eSSM(eSSM)と呼ばれるマルチインプットマルチアウトプットSSMに基づく新しい状態空間層を提案する。
我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。
計算効率を改善するための様々な効果的な戦略を提案する。
系行列の対角化は、最初に元の系を分離する。
次に、高速フーリエ変換に基づいて高速テンソル畳み込みを提案する。
さらに、SSMのブロック対角化により、モデルパラメータがさらに小さくなり、モデルの柔軟性が向上する。
大規模な実験結果から,提案モデルの性能はS4などの最先端モデルの性能と一致し,トランスフォーマーやLSTMよりも優れていることがわかった。
モデル効率ベンチマークでは、eSSM のパラメータは LSTM の 12.89 % と Mamba の 13.24 % のみである。
eSSMのトレーニング速度はLSTMの3.94倍、Mambaの1.35倍である。
コードは以下の通り。 \href{https://github.com/leonty1/essm}{https://github.com/leonty1/essm}。
関連論文リスト
- Grounding and Enhancing Grid-based Models for Neural Fields [52.608051828300106]
本稿では,グリッドモデルに関する理論的枠組みを紹介する。
このフレームワークは、これらのモデルの近似と一般化の挙動がグリッド接カーネル(GTK)によって決定されることを指摘している。
導入されたフレームワークは、Multiplicative Fourier Adaptive Grid(MulFAGrid)と呼ばれる新しいグリッドベースモデルの開発を動機付けている。
論文 参考訳(メタデータ) (2024-03-29T06:33:13Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Contextually Enhanced ES-dRNN with Dynamic Attention for Short-Term Load
Forecasting [1.1602089225841632]
提案手法は,コンテキストトラックとメイントラックという,同時に訓練された2つのトラックから構成される。
RNNアーキテクチャは、階層的な拡張を積み重ねた複数の繰り返し層で構成され、最近提案された注意的再帰細胞を備えている。
このモデルは点予測と予測間隔の両方を生成する。
論文 参考訳(メタデータ) (2022-12-18T07:42:48Z) - Unifying Model-Based and Neural Network Feedforward: Physics-Guided
Neural Networks with Linear Autoregressive Dynamics [0.0]
本稿では,未知の非線形力学を補償するフィードフォワード制御フレームワークを開発する。
フィードフォワードコントローラは、物理モデルとニューラルネットワークの並列結合としてパラメータ化される。
論文 参考訳(メタデータ) (2022-09-26T08:01:28Z) - Supplemental Material: Lifelong Generative Modelling Using Dynamic
Expansion Graph Model [11.540150938141034]
appendixには、さらに視覚的な結果と、挑戦的なデータセットの数値結果が含まれている。
また,提案する理論解析フレームワークの詳細な証明も提供する。
論文 参考訳(メタデータ) (2022-03-25T08:39:51Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Beltrami Flow and Neural Diffusion on Graphs [16.963355701694095]
我々は,非ユークリッド拡散PDEである離散ベルトラミ流に基づく新しいグラフニューラルネットワークのクラスを提案する。
本モデルでは,ノードの特徴をグラフトポロジから導出した位置エンコーディングで補足し,連続的な特徴学習とトポロジの進化を同時に生成する。
論文 参考訳(メタデータ) (2021-10-18T16:23:38Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - Physics-Based Deep Neural Networks for Beam Dynamics in Charged Particle
Accelerators [0.0]
力学の表現で生じるテイラー写像は、ニューラルネットワークの重みにマッピングされる。
得られたネットワークは、トレーニング前に完全な精度で力学系を近似する。
本稿では,既存のPETRA IIIと,DESYにおけるPETRA IVストレージリングの例を紹介する。
論文 参考訳(メタデータ) (2020-07-07T15:33:11Z) - Measuring Model Complexity of Neural Networks with Curve Activation
Functions [100.98319505253797]
本稿では,線形近似ニューラルネットワーク(LANN)を提案する。
ニューラルネットワークのトレーニングプロセスを実験的に検討し、オーバーフィッティングを検出する。
我々は、$L1$と$L2$正規化がモデルの複雑さの増加を抑制することを発見した。
論文 参考訳(メタデータ) (2020-06-16T07:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。