論文の概要: Linear Dynamics-embedded Neural Network for Long-Sequence Modeling
- arxiv url: http://arxiv.org/abs/2402.15290v1
- Date: Fri, 23 Feb 2024 12:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 14:43:42.882003
- Title: Linear Dynamics-embedded Neural Network for Long-Sequence Modeling
- Title(参考訳): 線形ダイナミクス埋め込みニューラルネットワークによる時系列モデリング
- Authors: Tongyi Liang and Han-Xiong Li
- Abstract要約: 我々はLinear Dynamics-embedded Neural Network (LDNN) と呼ばれる新しいニューラルネットワークを提案する。
SSMの連続的、離散的、畳み込み的特性により、LDNNはパラメータがほとんどなく、フレキシブルな推論が可能である。
2つの効率的な戦略は、畳み込みの時間的複雑さを$O(LNHmaxL, N)$から$O(LNmax H, log L)$に減少させる。
- 参考スコア(独自算出の注目度): 6.214987339902511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The trade-off between performance and computational efficiency in
long-sequence modeling becomes a bottleneck for existing models. Inspired by
the continuous state space models (SSMs) with multi-input and multi-output in
control theory, we propose a new neural network called Linear Dynamics-embedded
Neural Network (LDNN). SSMs' continuous, discrete, and convolutional properties
enable LDNN to have few parameters, flexible inference, and efficient training
in long-sequence tasks. Two efficient strategies, diagonalization and
$'\text{Disentanglement then Fast Fourier Transform (FFT)}'$, are developed to
reduce the time complexity of convolution from $O(LNH\max\{L, N\})$ to
$O(LN\max \{H, \log L\})$. We further improve LDNN through bidirectional
noncausal and multi-head settings to accommodate a broader range of
applications. Extensive experiments on the Long Range Arena (LRA) demonstrate
the effectiveness and state-of-the-art performance of LDNN.
- Abstract(参考訳): ロングシーケンスモデリングにおける性能と計算効率のトレードオフは、既存のモデルのボトルネックとなる。
制御理論におけるマルチインプットとマルチアウトプットを備えた連続状態空間モデル(SSM)に着想を得て,線形ダイナミクス埋め込みニューラルネットワーク(LDNN)と呼ばれる新しいニューラルネットワークを提案する。
SSMの連続的、離散的、畳み込み的特性により、LDNNはパラメータがほとんどなく、フレキシブルな推論が可能である。
対角化と$'\text{Disentanglement then Fast Fourier Transform (FFT)}'$という2つの効率的な戦略が開発され、畳み込みの時間的複雑さを$O(LNH\max\{L, N\})$から$O(LN\max \{H, \log L\})$へと減少させる。
我々は、広範囲のアプリケーションに対応するために、双方向の非因果設定とマルチヘッド設定により、LDNNをさらに改善する。
LRA(Long Range Arena)の大規模な実験は、LDNNの有効性と最先端の性能を示す。
関連論文リスト
- GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。
しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - HOPE for a Robust Parameterization of Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のマルコフパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々の新しいパラメータ化は、固定時間ウィンドウ内に非遅延メモリを付与し、パッドドノイズのあるシーケンシャルCIFAR-10タスクによって実証的に相関する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Accelerating Toeplitz Neural Network with Constant-time Inference
Complexity [21.88774274472737]
Toeplitz Neural Networks (TNN) は、様々なシーケンスモデリングタスクにおいて優れた性能を示した。
それらは、ログ線形の時空複雑さの恩恵を受けながら、Transformerベースのモデルよりも優れていた。
本稿では、TNNと状態空間モデル(SSM)の長所を、推論中にTNNをSSMに変換することで組み合わせることを目的とする。
論文 参考訳(メタデータ) (2023-11-15T07:50:57Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Compressing LSTM Networks by Matrix Product Operators [7.395226141345625]
Long Short Term Memory(LSTM)モデルは、多くの最先端自然言語処理(NLP)と音声強調(SE)アルゴリズムの構築ブロックである。
ここでは、量子多体物理学における量子状態の局所的相関を記述するMPO分解を紹介する。
LSTMモデルを置き換えるために,行列積演算子(MPO)に基づくニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-22T11:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。