論文の概要: Incorporating Exponential Smoothing into MLP: A Simple but Effective Sequence Model
- arxiv url: http://arxiv.org/abs/2403.17445v1
- Date: Tue, 26 Mar 2024 07:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 16:26:20.288818
- Title: Incorporating Exponential Smoothing into MLP: A Simple but Effective Sequence Model
- Title(参考訳): MLPへの指数平滑化:単純だが効果的なシーケンスモデル
- Authors: Jiqun Chu, Zuoquan Lin,
- Abstract要約: 最近開発されたStructured State Space (S4) は、長距離シーケンスをモデル化する上で大きな効果を示した。
帰納バイアスの増大と低減を目的とした指数的平滑化(ETS)を提案する。
我々のモデルはLRAベンチマークでS4に匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling long-range dependencies in sequential data is a crucial step in sequence learning. A recently developed model, the Structured State Space (S4), demonstrated significant effectiveness in modeling long-range sequences. However, It is unclear whether the success of S4 can be attributed to its intricate parameterization and HiPPO initialization or simply due to State Space Models (SSMs). To further investigate the potential of the deep SSMs, we start with exponential smoothing (ETS), a simple SSM, and propose a stacked architecture by directly incorporating it into an element-wise MLP. We augment simple ETS with additional parameters and complex field to reduce the inductive bias. Despite increasing less than 1\% of parameters of element-wise MLP, our models achieve comparable results to S4 on the LRA benchmark.
- Abstract(参考訳): シーケンシャルデータにおける長距離依存関係のモデリングは、シーケンシャルラーニングの重要なステップである。
最近開発されたStructured State Space (S4) は、長距離シーケンスをモデル化する上で大きな効果を示した。
しかし、S4の成功が複雑なパラメータ化とHiPPOの初期化によるものなのか、あるいは単に状態空間モデル(SSM)によるものなのかは定かではない。
深部SSMのポテンシャルを更に研究するために,まずは単純なSSMである指数スムージング(ETS)から始め,それを要素的に直接 MLP に組み込むことにより,積み重ねたアーキテクチャを提案する。
誘導バイアスを低減するため、単純なETSをパラメータと複素場を追加して拡張する。
要素量 MLP のパラメータの 1\% 未満の増加にもかかわらず,我々のモデルは LRA ベンチマークで S4 に匹敵する結果を得た。
関連論文リスト
- Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Robustifying State-space Models for Long Sequences via Approximate
Diagonalization [47.321212977509454]
状態空間モデル(SSM)は、長距離シーケンスタスクを学習するためのフレームワークとして登場した。
HiPPOフレームワークの対角化は、それ自体が不適切な問題である。
本稿では,汎用的,後方安定な「摂動対角化(PTD)」手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T23:36:13Z) - A Neural State-Space Model Approach to Efficient Speech Separation [34.38911304755453]
ニューラル状態空間モデル(SSM)に基づく新しい効率的な音声分離フレームワークであるS4Mを紹介する。
SSM手法を音声分離タスクに拡張するために、まず入力混合物を異なる解像度のマルチスケール表現に分解する。
実験の結果,S4Mは他の分離バックボーンとSI-SDRiの相容れない性能を示した。
我々のS4M-tinyモデル(1.8Mパラメータ)は、9.2の乗算演算(MAC)しか持たない雑音条件下で、注意に基づくセプフォーマ(26.0Mパラメータ)を超える。
論文 参考訳(メタデータ) (2023-05-26T13:47:11Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Simplified State Space Layers for Sequence Modeling [11.215817688691194]
近年、構造化された状態空間列層を用いたモデルが、多くの長距離タスクにおいて最先端の性能を達成している。
ハイパフォーマンスにはHiPPOフレームワークに密接に従う必要があるという考えを再考する。
我々は、S4層が使用する多くの独立したシングルインプット、シングルアウトプット(SISO)SSMのバンクを、1つのマルチインプット、マルチアウトプット(MIMO)SSMで置き換える。
S5は、Long Range Arenaベンチマークスイートで平均82.46%を達成することを含む、長距離タスクにおけるS4のパフォーマンスと一致している。
論文 参考訳(メタデータ) (2022-08-09T17:57:43Z) - How to Train Your HiPPO: State Space Models with Generalized Orthogonal
Basis Projections [22.421814045703147]
線形時間不変状態空間モデル(SSM)は機械学習において非常に有望であることが示されている。
理論的にリッチなSSMのクラスを導入し、他のベースに対してより直感的なS4変種を導出できるようにします。
これらの洞察により、S4のパフォーマンスはLong Range Arenaベンチマークで86%、最も難しいPath-Xタスクで96%向上した。
論文 参考訳(メタデータ) (2022-06-24T02:24:41Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Sinkhorn Natural Gradient for Generative Models [125.89871274202439]
本研究では,シンクホーンの発散による確率空間上の最も急降下法として機能するシンクホーン自然勾配(SiNG)アルゴリズムを提案する。
本稿では,SiNG の主要成分であるシンクホーン情報行列 (SIM) が明示的な表現を持ち,対数的スケールの複雑さを正確に評価できることを示す。
本実験では,SiNGと最先端のSGD型解法を定量的に比較し,その有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-11-09T02:51:17Z) - Revisiting minimum description length complexity in overparameterized
models [38.21167656112762]
本稿では,線形モデルとカーネル手法に対するMDL-COMPの広範な理論的特性について述べる。
カーネル法では,MDL-COMPがサンプル内誤差を最小化し,入力の次元が増加するにつれて減少することを示す。
また、MDL-COMPがサンプル内平均二乗誤差(MSE)を束縛していることも証明する。
論文 参考訳(メタデータ) (2020-06-17T22:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。