論文の概要: State-Free Inference of State-Space Models: The Transfer Function Approach
- arxiv url: http://arxiv.org/abs/2405.06147v1
- Date: Fri, 10 May 2024 00:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 17:06:55.285162
- Title: State-Free Inference of State-Space Models: The Transfer Function Approach
- Title(参考訳): 状態空間モデルの状態自由推論:伝達関数アプローチ
- Authors: Rom N. Parnichkun, Stefano Massaroli, Alessandro Moro, Jimmy T. H. Smith, Ramin Hasani, Mathias Lechner, Qi An, Christopher Ré, Hajime Asama, Stefano Ermon, Taiji Suzuki, Atsushi Yamashita, Michael Poli,
- Abstract要約: 状態のない推論では、状態サイズが大きくなると大きなメモリや計算コストは発生しない。
提案した周波数領域転送関数のパラメトリゼーション特性を用いてこれを実現する。
長い畳み込みハイエナベースライン上での言語モデリングにおける難易度の改善を報告した。
- 参考スコア(独自算出の注目度): 132.83348321603205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We approach designing a state-space model for deep learning applications through its dual representation, the transfer function, and uncover a highly efficient sequence parallel inference algorithm that is state-free: unlike other proposed algorithms, state-free inference does not incur any significant memory or computational cost with an increase in state size. We achieve this using properties of the proposed frequency domain transfer function parametrization, which enables direct computation of its corresponding convolutional kernel's spectrum via a single Fast Fourier Transform. Our experimental results across multiple sequence lengths and state sizes illustrates, on average, a 35% training speed improvement over S4 layers -- parametrized in time-domain -- on the Long Range Arena benchmark, while delivering state-of-the-art downstream performances over other attention-free approaches. Moreover, we report improved perplexity in language modeling over a long convolutional Hyena baseline, by simply introducing our transfer function parametrization. Our code is available at https://github.com/ruke1ire/RTF.
- Abstract(参考訳): 本稿では,その双対表現,転送関数,および高効率なシーケンス並列推論アルゴリズムにより,ディープラーニングアプリケーションのための状態空間モデルの設計にアプローチする。
提案した周波数領域転送関数パラメトリゼーションの特性を用いて、単一高速フーリエ変換を用いて、対応する畳み込みカーネルのスペクトルを直接計算できる。
複数のシーケンスの長さと状態サイズにまたがる実験結果から、Long Range Arenaベンチマークでは、S4層のトレーニング速度が平均35%向上し、他の注意を払わないアプローチよりも、最先端のダウンストリームのパフォーマンスを実現しています。
さらに,移動関数パラメトリゼーションを導入することで,長い畳み込みハイエナベースライン上での言語モデリングの難易度を改善することを報告した。
私たちのコードはhttps://github.com/ruke1ire/RTF.comで利用可能です。
関連論文リスト
- Generalized Dynamic Brain Functional Connectivity Based on Random Convolutions [15.620523540831021]
本稿では,多次元ランダム畳み込み(RandCon)DFC法によるダイナミクスの一般化手法を提案する。
最小のカーネルサイズ(3タイムポイント)を持つRandConでは、シミュレーションデータのパフォーマンスが顕著に向上した。
実際のfMRIデータから、RandConは競合する方法よりも男女差に敏感であることが示唆された。
論文 参考訳(メタデータ) (2024-06-24T13:02:36Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Liquid Structural State-Space Models [106.74783377913433]
Liquid-S4はLong-Range Arenaベンチマークで平均87.32%の性能を達成した。
全生音声コマンド認識では、データセットLiquid-S4は96.78%の精度で、S4と比較してパラメータ数が30%減少している。
論文 参考訳(メタデータ) (2022-09-26T18:37:13Z) - Active Nearest Neighbor Regression Through Delaunay Refinement [79.93030583257597]
近接回帰に基づく能動関数近似アルゴリズムを提案する。
我々のActive Nearest Neighbor Regressor (ANNR) は計算幾何学の Voronoi-Delaunay フレームワークに頼り、空間を一定の関数値のセルに分割する。
論文 参考訳(メタデータ) (2022-06-16T10:24:03Z) - Lightweight Convolutional Neural Networks By Hypercomplex
Parameterization [10.420215908252425]
超複素畳み込み層のパラメータ化を定義し、軽量で効率的な大規模畳み込みモデルを開発する。
提案手法は,データから直接,畳み込みルールとフィルタ組織を把握している。
様々な画像データセットとオーディオデータセットで実験を行うことにより、このアプローチの複数のドメインに対する汎用性を実証する。
論文 参考訳(メタデータ) (2021-10-08T14:57:19Z) - Exploiting Multiple Timescales in Hierarchical Echo State Networks [0.0]
エコー状態ネットワーク(ESN)は、線形出力重みのトレーニングのみを必要とする貯水池コンピューティングの強力な形態である。
ここでは,貯水池を2つの小さな貯水池に分割した階層型esnの時間スケールを考察する。
論文 参考訳(メタデータ) (2021-01-11T22:33:17Z) - Lightning-Fast Gravitational Wave Parameter Inference through Neural
Amortization [6.810835072367285]
ニューラルシミュレーションに基づく推論の最近の進歩は、推論時間を最大3桁スピードアップすることができる。
シミュレーションされた重力波のパラメータの信頼区間を精度良く推定する。
論文 参考訳(メタデータ) (2020-10-24T16:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。