論文の概要: On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages
- arxiv url: http://arxiv.org/abs/2412.19350v1
- Date: Thu, 26 Dec 2024 20:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:27.630522
- Title: On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages
- Title(参考訳): 正規言語における選択的状態空間モデルの表現性と長さ一般化について
- Authors: Aleksandar Terzić, Michael Hersche, Giacomo Camposampiero, Thomas Hofmann, Abu Sebastian, Abbas Rahimi,
- Abstract要約: SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
- 参考スコア(独自算出の注目度): 56.22289522687125
- License:
- Abstract: Selective state-space models (SSMs) are an emerging alternative to the Transformer, offering the unique advantage of parallel training and sequential inference. Although these models have shown promising performance on a variety of tasks, their formal expressiveness and length generalization properties remain underexplored. In this work, we provide insight into the workings of selective SSMs by analyzing their expressiveness and length generalization performance on regular language tasks, i.e., finite-state automaton (FSA) emulation. We address certain limitations of modern SSM-based architectures by introducing the Selective Dense State-Space Model (SD-SSM), the first selective SSM that exhibits perfect length generalization on a set of various regular language tasks using a single layer. It utilizes a dictionary of dense transition matrices, a softmax selection mechanism that creates a convex combination of dictionary matrices at each time step, and a readout consisting of layer normalization followed by a linear map. We then proceed to evaluate variants of diagonal selective SSMs by considering their empirical performance on commutative and non-commutative automata. We explain the experimental results with theoretical considerations. Our code is available at https://github.com/IBM/selective-dense-state-space-model.
- Abstract(参考訳): SSM(Selective State-space Model)はTransformerの代替として登場し、並列トレーニングとシーケンシャル推論のユニークな利点を提供する。
これらのモデルは様々なタスクにおいて有望な性能を示したが、それらの形式的表現性や長さ一般化特性はいまだ探索されていない。
本研究では、正規言語タスクにおける表現性および長さ一般化性能、すなわち有限状態オートマトン(FSA)エミュレーションを分析し、選択的なSSMの動作について考察する。
SSM(Selective Dense State-Space Model, SD-SSM)は,複数の正規言語タスクの集合に対して, 完全な長さの一般化を示す最初の選択型SSMである。
これは、高密度遷移行列の辞書と、各時間ステップで辞書行列の凸結合を生成するソフトマックス選択機構と、その後に線形写像が続く層正規化からなる読み出しを利用する。
次に, 可換および非可換オートマトンにおける実験性能を考慮し, 対角選択的SSMの変種を評価する。
実験結果について理論的考察を行った。
私たちのコードはhttps://github.com/IBM/elective-dense-state-space-modelで利用可能です。
関連論文リスト
- Implicit Language Models are RNNs: Balancing Parallelization and Expressivity [4.332158627306896]
状態空間モデル(SSM)とトランスフォーマーが言語モデリングのランドスケープを支配している。
固定点に収束するまで変換を繰り返す暗黙のSSMを提案する。
提案手法は, 正規言語における状態追跡能力に優れ, トランスフォーマーやSSMよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T19:59:31Z) - SeRpEnt: Selective Resampling for Expressive State Space Models [5.7918134313332414]
状態空間モデル(SSM)は、最近、シークエンスモデリングのディープラーニング分野において注目されている。
我々は,マンバにおける選択時間間隔が情報の線形近似器として機能することを示す。
我々は、情報認識方式でシーケンスを圧縮するための選択性をさらに活用するSSMであるSeRpEntアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-01-20T20:27:50Z) - Recursive Learning of Asymptotic Variational Objectives [49.69399307452126]
一般状態空間モデル(英: General State-space Model, SSM)は、統計機械学習において広く用いられ、時系列データに対して最も古典的な生成モデルの一つである。
オンラインシーケンシャルIWAE(OSIWAE)は、潜在状態の推測のためのモデルパラメータとマルコフ認識モデルの両方のオンライン学習を可能にする。
このアプローチは、最近提案されたオンライン変分SMC法よりも理論的によく確立されている。
論文 参考訳(メタデータ) (2024-11-04T16:12:37Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - From Generalization Analysis to Optimization Designs for State Space Models [14.932318540666547]
状態空間モデル (SSM) は時系列解析の基礎モデルである。
一般化結果に基づく学習アルゴリズムの改良を提案する。
論文 参考訳(メタデータ) (2024-05-04T13:58:03Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。