論文の概要: xLSTM: Extended Long Short-Term Memory
- arxiv url: http://arxiv.org/abs/2405.04517v1
- Date: Tue, 7 May 2024 17:50:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:11:46.816253
- Title: xLSTM: Extended Long Short-Term Memory
- Title(参考訳): xLSTM: 長期記憶の拡張
- Authors: Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter,
- Abstract要約: 1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
正規化と安定化を適切に行う指数ゲーティングを導入する。
i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
- 参考スコア(独自算出の注目度): 26.607656211983155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the 1990s, the constant error carousel and gating were introduced as the central ideas of the Long Short-Term Memory (LSTM). Since then, LSTMs have stood the test of time and contributed to numerous deep learning success stories, in particular they constituted the first Large Language Models (LLMs). However, the advent of the Transformer technology with parallelizable self-attention at its core marked the dawn of a new era, outpacing LSTMs at scale. We now raise a simple question: How far do we get in language modeling when scaling LSTMs to billions of parameters, leveraging the latest techniques from modern LLMs, but mitigating known limitations of LSTMs? Firstly, we introduce exponential gating with appropriate normalization and stabilization techniques. Secondly, we modify the LSTM memory structure, obtaining: (i) sLSTM with a scalar memory, a scalar update, and new memory mixing, (ii) mLSTM that is fully parallelizable with a matrix memory and a covariance update rule. Integrating these LSTM extensions into residual block backbones yields xLSTM blocks that are then residually stacked into xLSTM architectures. Exponential gating and modified memory structures boost xLSTM capabilities to perform favorably when compared to state-of-the-art Transformers and State Space Models, both in performance and scaling.
- Abstract(参考訳): 1990年代には、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
それ以来、LSTMは時間の試験に立脚し、特に最初のLarge Language Models (LLMs) を構成する深層学習の成功に寄与してきた。
しかし、トランスフォーマー技術がコアに並列化可能な自己保持技術が出現したことで、LSTMを大規模に上回り、新しい時代の幕開けを告げた。
LSTMを数十億のパラメータにスケーリングする際の言語モデリングは、現在のLLMの最新のテクニックを活用しながら、LSTMの既知の制限を緩和する上で、どの程度の成果を上げますか?
まず,正規化と安定化を適切に行う指数ゲーティングを導入する。
第2に、LSTMメモリ構造を変更し、
(i)スカラーメモリ、スカラー更新、新しいメモリミキシングを備えたsLSTM。
(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
これらのLSTM拡張を残留ブロックバックボーンに統合すると、xLSTMブロックが残りのxLSTMアーキテクチャに積み上げられる。
指数ゲーティングと修正メモリ構造は、パフォーマンスとスケーリングの両方において、最先端のトランスフォーマーやステートスペースモデルと比較して、xLSTM能力を向上する。
関連論文リスト
- Vision-LSTM: xLSTM as Generic Vision Backbone [15.268672785769525]
コンピュータビジョンに対する xLSTM ビルディングブロックの適応である Vision-LSTM (ViL) を導入する。
ViLはxLSTMブロックのスタックで構成され、奇異ブロックはパッチトークンのシーケンスを上から下へ処理する。
論文 参考訳(メタデータ) (2024-06-06T17:49:21Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - RigLSTM: Recurrent Independent Grid LSTM for Generalizable Sequence
Learning [75.61681328968714]
本稿では,対象タスクの基盤となるモジュール構造を利用するために,リカレントな独立したGrid LSTM(RigLSTM)を提案する。
本モデルでは, セル選択, 入力特徴選択, 隠れ状態選択, ソフト状態更新を採用し, より優れた一般化を実現する。
論文 参考訳(メタデータ) (2023-11-03T07:40:06Z) - DeLELSTM: Decomposition-based Linear Explainable LSTM to Capture
Instantaneous and Long-term Effects in Time Series [26.378073712630467]
LSTMの解釈性を改善するために,分解に基づく線形説明可能LSTM(DeLELSTM)を提案する。
3つの経験的データセット上でのDeLELSTMの有効性と解釈性を示す。
論文 参考訳(メタデータ) (2023-08-26T07:45:41Z) - Condensing Multilingual Knowledge with Lightweight Language-Specific
Modules [52.973832863842546]
本稿では,Language-Specific Matrix Synthesis (LMS)法を紹介する。
このアプローチは、2つのかなり小さな行列から低ランク行列を生成することでLSモジュールを構築する。
複数のLSモジュールからの多言語知識を、Fuse Distillation (FD) 技術を用いて単一の共有モジュールに格納する。
論文 参考訳(メタデータ) (2023-05-23T12:21:38Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - Future Vector Enhanced LSTM Language Model for LVCSR [67.03726018635174]
本稿では,将来ベクトルを用いた拡張長短期メモリ(LSTM)LMを提案する。
実験の結果,提案したLSTM LMはBLEUスコアよりも長期のシーケンス予測に有効であることがわかった。
新たなLSTM LMと従来のLSTM LMを併用することで,単語誤り率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-07-31T08:38:56Z) - Sentiment Analysis Using Simplified Long Short-term Memory Recurrent
Neural Networks [1.5146765382501612]
GOPディベートTwitterデータセット上で感情分析を行う。
学習を高速化し、計算コストと時間を短縮するために、LSTMモデルのスリムバージョンを6つの異なるパラメータで削減する手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T12:50:10Z) - Long short-term memory networks and laglasso for bond yield forecasting:
Peeping inside the black box [10.412912723760172]
長期記憶(LSTM)ネットワークを用いた結合収率予測の最初の研究を行った。
我々は,シーケンス・ツー・シーケンス・アーキテクチャを用いて,メモリセル内の選択された位置におけるLSTM信号の時間的計算を行う。
論文 参考訳(メタデータ) (2020-05-05T14:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。