論文の概要: Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models
- arxiv url: http://arxiv.org/abs/2505.17761v1
- Date: Fri, 23 May 2025 11:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.0283
- Title: Structured Linear CDEs: Maximally Expressive and Parallel-in-Time Sequence Models
- Title(参考訳): 構造線形CDE:最大表現および並列時間列モデル
- Authors: Benjamin Walker, Lingyi Yang, Nicola Muca Cirone, Cristopher Salvi, Terry Lyons,
- Abstract要約: 我々は、構造化された入力依存状態遷移行列を持つシーケンスモデルのための統一フレームワークを提供する。
S4 と Mamba の対角的状態遷移行列とは異なり、SLiCE はブロック対角行列、スパース行列、ウォルシュ-ハダマール行列を用いる。
経験的に、SLiCEは1層で$A_5$の状態追跡ベンチマークを解き、並列時間モデル間での正規言語タスクのクラス長の最適化を実現し、ログニューラル制御微分方程式の最先端性能に適合する。
- 参考スコア(独自算出の注目度): 6.389310720722303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured Linear Controlled Differential Equations (SLiCEs) provide a unifying framework for sequence models with structured, input-dependent state-transition matrices that retain the maximal expressivity of dense matrices whilst being cheaper to compute. The framework encompasses existing architectures, such as input-dependent block-diagonal linear recurrent neural networks and DeltaNet's diagonal-plus-low-rank structure, as well as two novel variants based on sparsity and the Walsh--Hadamard transform. We prove that, unlike the diagonal state-transition matrices of S4 and Mamba, SLiCEs employing block-diagonal, sparse, or Walsh--Hadamard matrices match the maximal expressivity of dense matrices. Empirically, SLiCEs solve the $A_5$ state-tracking benchmark with a single layer, achieve best-in-class length generalisation on regular language tasks among parallel-in-time models, and match the state-of-the-art performance of log neural controlled differential equations on six multivariate time-series classification datasets while cutting the average time per training step by a factor of twenty.
- Abstract(参考訳): 構造線形制御微分方程式 (Structured Linear Controlled Differential Equations, SLiCEs) は、高密度行列の最大表現性を保持する構造的、入力依存状態遷移行列を持つシーケンスモデルのための統一フレームワークを提供する。
このフレームワークは、入力依存のブロック対角線形リカレントニューラルネットワークやDeltaNetの対角+ローランク構造といった既存のアーキテクチャと、疎度とウォルシュ-ハダマール変換に基づく2つの新しいバリエーションを含んでいる。
S4 と Mamba の対角的状態遷移行列とは異なり、SLiCE はブロック対角行列、スパース行列、ウォルシュ-ハダマール行列が密度行列の最大表現性と一致することを証明している。
経験的に、SLiCEは1層で$A_5$の状態追跡ベンチマークを解決し、並列時間モデル間での正規言語タスクの最高のクラス長の一般化を実現し、6つの多変量時系列分類データセット上でのログニューラル制御微分方程式の最先端性能を20倍に削減する。
関連論文リスト
- DeltaProduct: Improving State-Tracking in Linear RNNs via Householder Products [63.66021758150632]
リニアリカレントニューラルネットワーク(線形RNN)は、シーケンスモデリングのためのトランスフォーマーの競合代替手段として登場した。
既存のアーキテクチャは、その状態遷移行列の構造によって規定される、表現性と効率の基本的なトレードオフに直面している。
我々はDeltaProductを紹介し、トークンごとに複数の(n_h$)ステップを踏んで、状態追跡と言語モデリングの優れた機能を実現する。
論文 参考訳(メタデータ) (2025-02-14T16:59:05Z) - Classification of BCI-EEG based on augmented covariance matrix [0.0]
本稿では,運動画像分類の改善を目的とした自己回帰モデルから抽出した拡張共分散に基づく新しいフレームワークを提案する。
私たちはMOABBフレームワークを使って、いくつかのデータセットといくつかの主題でアプローチを検証します。
論文 参考訳(メタデータ) (2023-02-09T09:04:25Z) - High-Dimensional Sparse Bayesian Learning without Covariance Matrices [66.60078365202867]
共分散行列の明示的な構成を避ける新しい推論手法を提案する。
本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。
いくつかのシミュレーションにおいて,本手法は計算時間とメモリにおける既存手法よりも拡張性が高い。
論文 参考訳(メタデータ) (2022-02-25T16:35:26Z) - Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via
GDPA Linearization [59.87663954467815]
アルゴリズムの展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で類似のニューラルネットワークアーキテクチャを生成する。
本稿では、Gershgorin disc perfect alignment (GDPA)と呼ばれる最近の線形代数定理を利用して、二進グラフの半定値プログラミング緩和(SDR)のためのプロジェクションフリーアルゴリズムをアンロールする。
実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示したが,パラメータははるかに少なかった。
論文 参考訳(メタデータ) (2021-09-10T07:01:15Z) - H-Transformer-1D: Fast One-Dimensional Hierarchical Attention for
Sequences [16.59989033959959]
本稿では,トランスフォーマーアーキテクチャにおける注目度を計算するための効率的な階層的手法について述べる。
提案手法は,Long Range Arenaベンチマークにおいて,平均で+6点以上の代替準四進法よりも優れている。
また、One-Billion Wordデータセットに新しいSOTAテストパープレキシティを設定し、5倍のモデルパラメータを前回のベストなTransformerベースのモデルと比較する。
論文 参考訳(メタデータ) (2021-07-25T23:07:03Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。