論文の概要: State Space Models as Foundation Models: A Control Theoretic Overview
- arxiv url: http://arxiv.org/abs/2403.16899v1
- Date: Mon, 25 Mar 2024 16:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:34:33.693140
- Title: State Space Models as Foundation Models: A Control Theoretic Overview
- Title(参考訳): 基礎モデルとしての状態空間モデル:制御理論の概要
- Authors: Carmen Amo Alonso, Jerome Sieber, Melanie N. Zeilinger,
- Abstract要約: 近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
- 参考スコア(独自算出の注目度): 3.3222241150972356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, there has been a growing interest in integrating linear state-space models (SSM) in deep neural network architectures of foundation models. This is exemplified by the recent success of Mamba, showing better performance than the state-of-the-art Transformer architectures in language tasks. Foundation models, like e.g. GPT-4, aim to encode sequential data into a latent space in order to learn a compressed representation of the data. The same goal has been pursued by control theorists using SSMs to efficiently model dynamical systems. Therefore, SSMs can be naturally connected to deep sequence modeling, offering the opportunity to create synergies between the corresponding research areas. This paper is intended as a gentle introduction to SSM-based architectures for control theorists and summarizes the latest research developments. It provides a systematic review of the most successful SSM proposals and highlights their main features from a control theoretic perspective. Additionally, we present a comparative analysis of these models, evaluating their performance on a standardized benchmark designed for assessing a model's efficiency at learning long sequences.
- Abstract(参考訳): 近年、基礎モデルのディープニューラルネットワークアーキテクチャに線形状態空間モデル(SSM)を統合することへの関心が高まっている。
これは最近のMambaの成功によって実証され、言語タスクにおける最先端のTransformerアーキテクチャよりも優れたパフォーマンスを示している。
eg GPT-4のような基礎モデルは、圧縮されたデータの表現を学ぶために、シーケンシャルデータを潜在空間にエンコードすることを目的としている。
同じ目的は、SSMを使って動的システムを効率的にモデル化する制御理論家によって追求されている。
したがって、SSMはディープ・シークエンス・モデリングと自然に結びつくことができ、対応する研究領域間のシナジーを生み出す機会を提供する。
本稿では、制御理論家のためのSSMベースのアーキテクチャの穏やかな導入を意図し、最新の研究成果を要約する。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
さらに、これらのモデルの比較分析を行い、長列学習におけるモデルの効率を評価するために設計された標準ベンチマークでそれらの性能を評価する。
関連論文リスト
- State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。
注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。
その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文 参考訳(メタデータ) (2024-04-15T07:24:45Z) - GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition [10.562869805151411]
ビデオにおける骨格に基づく行動認識(SAR)はコンピュータビジョンにおいて重要な課題であるが難しい課題である。
本稿では、シーケンシャルデータに対する原則的かつ同義的な表現である経路開発を利用するDevLSTMモジュールを提案する。
提案するG-DevLSTMモジュールは,既存のGCNベースモデルを補完し,時間グラフに都合よくプラグインすることができる。
論文 参考訳(メタデータ) (2024-03-22T13:55:52Z) - Theoretical Foundations of Deep Selective State-Space Models [14.989266348816749]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Replicability Study: Corpora For Understanding Simulink Models &
Projects [8.261117235807607]
本研究は, 前回のSimulinkモデル研究で採用した方法論とデータソースをレビューし, SLNETを用いて過去の解析を再現する。
オープンソースSimulinkモデルは優れたモデリングプラクティスに従っており、プロプライエタリモデルに匹敵するサイズと特性を持つモデルを含んでいることがわかった。
論文 参考訳(メタデータ) (2023-08-03T18:14:54Z) - Leveraging the structure of dynamical systems for data-driven modeling [111.45324708884813]
トレーニングセットとその構造が長期予測の品質に与える影響を考察する。
トレーニングセットのインフォームドデザインは,システムの不変性と基盤となるアトラクションの構造に基づいて,結果のモデルを大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-12-15T20:09:20Z) - Constructing Neural Network-Based Models for Simulating Dynamical
Systems [59.0861954179401]
データ駆動モデリングは、真のシステムの観測からシステムの力学の近似を学ぼうとする代替パラダイムである。
本稿では,ニューラルネットワークを用いた動的システムのモデル構築方法について検討する。
基礎的な概要に加えて、関連する文献を概説し、このモデリングパラダイムが克服すべき数値シミュレーションから最も重要な課題を概説する。
論文 参考訳(メタデータ) (2021-11-02T10:51:42Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z) - Relational State-Space Model for Stochastic Multi-Object Systems [24.234120525358456]
本稿では、逐次階層型潜在変数モデルであるリレーショナル状態空間モデル(R-SSM)を紹介する。
R-SSMはグラフニューラルネットワーク(GNN)を用いて、複数の相関オブジェクトの結合状態遷移をシミュレートする。
R-SSMの実用性は、合成および実時間時系列データセットで実証的に評価される。
論文 参考訳(メタデータ) (2020-01-13T03:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。