Fugu-MT 論文翻訳(概要): State Space Models as Foundation Models: A Control Theoretic Overview

論文の概要: State Space Models as Foundation Models: A Control Theoretic Overview

arxiv url: http://arxiv.org/abs/2403.16899v1
Date: Mon, 25 Mar 2024 16:10:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 20:34:33.693140
Title: State Space Models as Foundation Models: A Control Theoretic Overview
Title（参考訳）: 基礎モデルとしての状態空間モデル:制御理論の概要
Authors: Carmen Amo Alonso, Jerome Sieber, Melanie N. Zeilinger,
Abstract要約: 近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
参考スコア（独自算出の注目度）: 3.3222241150972356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, there has been a growing interest in integrating linear state-space models (SSM) in deep neural network architectures of foundation models. This is exemplified by the recent success of Mamba, showing better performance than the state-of-the-art Transformer architectures in language tasks. Foundation models, like e.g. GPT-4, aim to encode sequential data into a latent space in order to learn a compressed representation of the data. The same goal has been pursued by control theorists using SSMs to efficiently model dynamical systems. Therefore, SSMs can be naturally connected to deep sequence modeling, offering the opportunity to create synergies between the corresponding research areas. This paper is intended as a gentle introduction to SSM-based architectures for control theorists and summarizes the latest research developments. It provides a systematic review of the most successful SSM proposals and highlights their main features from a control theoretic perspective. Additionally, we present a comparative analysis of these models, evaluating their performance on a standardized benchmark designed for assessing a model's efficiency at learning long sequences.
Abstract（参考訳）: 近年、基礎モデルのディープニューラルネットワークアーキテクチャに線形状態空間モデル(SSM)を統合することへの関心が高まっている。これは最近のMambaの成功によって実証され、言語タスクにおける最先端のTransformerアーキテクチャよりも優れたパフォーマンスを示している。 eg GPT-4のような基礎モデルは、圧縮されたデータの表現を学ぶために、シーケンシャルデータを潜在空間にエンコードすることを目的としている。同じ目的は、SSMを使って動的システムを効率的にモデル化する制御理論家によって追求されている。したがって、SSMはディープ・シークエンス・モデリングと自然に結びつくことができ、対応する研究領域間のシナジーを生み出す機会を提供する。本稿では、制御理論家のためのSSMベースのアーキテクチャの穏やかな導入を意図し、最新の研究成果を要約する。もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。さらに、これらのモデルの比較分析を行い、長列学習におけるモデルの効率を評価するために設計された標準ベンチマークでそれらの性能を評価する。

関連論文リスト

Generalized Factor Neural Network Model for High-dimensional Regression [50.554377879576066]
複素・非線形・雑音に隠れた潜在低次元構造を持つ高次元データセットをモデル化する課題に取り組む。我々のアプローチは、非パラメトリック回帰、因子モデル、高次元回帰のためのニューラルネットワークの概念のシームレスな統合を可能にする。
論文参考訳（メタデータ） (2025-02-16T23:13:55Z)
Deep Learning-based Approaches for State Space Models: A Selective Review [15.295157876811066]
状態空間モデル(SSM)は動的システム解析のための強力なフレームワークを提供する。本稿では、SSMに対するディープニューラルネットワークに基づくアプローチの最近の進歩を選択的にレビューする。
論文参考訳（メタデータ） (2024-12-15T15:04:35Z)
Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文参考訳（メタデータ） (2024-11-30T10:56:30Z)
On Foundation Models for Dynamical Systems from Purely Synthetic Data [5.004576576202551]
基礎モデルは、様々な領域にわたる顕著な一般化、データ効率、ロバスト性を示してきた。これらのモデルは自然言語処理やコンピュータビジョンなどの分野で利用できるが、力学系には存在しない。合成データのみに基づくトランスフォーマーベース基礎モデルを事前学習することで,この問題に対処する。本研究は, 一般化, データ効率, 堅牢性の観点から, スペシャリストモデルを上回った力学系の基礎モデルの実現可能性を示すものである。
論文参考訳（メタデータ） (2024-11-30T08:34:10Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文参考訳（メタデータ） (2024-10-16T14:29:29Z)
Towards Efficient Modelling of String Dynamics: A Comparison of State Space and Koopman based Deep Learning Methods [8.654571696634825]
State Space Models (SSM) と Koopman に基づくディープラーニング手法は、線形および非線形の剛弦の力学をモデル化する。以上の結果から,提案したクープマンモデルが,長周期モデリングにおける非線形ケースにおいて,他の既存手法と同等以上の性能を示すことが示唆された。本研究は、これらの手法と過去の手法の比較概要を提供し、モデル改善のための革新的な戦略を導入することにより、力学系の物理モデリングに関する洞察を貢献する。
論文参考訳（メタデータ） (2024-08-29T15:55:27Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
Time-SSM: Simplifying and Unifying State Space Models for Time Series Forecasting [22.84798547604491]
状態空間モデル(SSM)は、基底関数の集合を用いて連続系を近似し、それらを離散化して入力データを処理する。本稿では,SSMを時系列データに適用するためのより直感的で汎用的なガイダンスを提供する,動的スペクトル演算子(Dynamic Spectral Operator)と呼ばれる新しい理論フレームワークを提案する。パラメータの7分の1しか持たない新しいSSM基盤モデルであるTime-SSMを紹介する。
論文参考訳（メタデータ） (2024-05-25T17:42:40Z)
Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文参考訳（メタデータ） (2024-05-24T17:19:57Z)
State Space Model for New-Generation Network Alternative to Transformers: A Survey [52.812260379420394]
深層学習時代において、Transformerアーキテクチャは、トレーニング済みのビッグモデルとさまざまなダウンストリームタスクにまたがる強力なパフォーマンスを示してきた。注意モデルの複雑さをさらに軽減するために、より効率的な手法を設計するための多くの努力がなされている。その中でも、自己注意に基づくトランスフォーマーモデルの代替として、ステートスペースモデル(SSM)が近年ますます注目を集めている。
論文参考訳（メタデータ） (2024-04-15T07:24:45Z)
Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文参考訳（メタデータ） (2024-02-29T11:20:16Z)
Replicability Study: Corpora For Understanding Simulink Models & Projects [8.261117235807607]
本研究は, 前回のSimulinkモデル研究で採用した方法論とデータソースをレビューし, SLNETを用いて過去の解析を再現する。オープンソースSimulinkモデルは優れたモデリングプラクティスに従っており、プロプライエタリモデルに匹敵するサイズと特性を持つモデルを含んでいることがわかった。
論文参考訳（メタデータ） (2023-08-03T18:14:54Z)
S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文参考訳（メタデータ） (2020-07-13T17:44:30Z)
Relational State-Space Model for Stochastic Multi-Object Systems [24.234120525358456]
本稿では、逐次階層型潜在変数モデルであるリレーショナル状態空間モデル(R-SSM)を紹介する。 R-SSMはグラフニューラルネットワーク(GNN)を用いて、複数の相関オブジェクトの結合状態遷移をシミュレートする。 R-SSMの実用性は、合成および実時間時系列データセットで実証的に評価される。
論文参考訳（メタデータ） (2020-01-13T03:45:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。