論文の概要: xLSTM: Extended Long Short-Term Memory
- arxiv url: http://arxiv.org/abs/2405.04517v2
- Date: Fri, 06 Dec 2024 15:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:54:43.720241
- Title: xLSTM: Extended Long Short-Term Memory
- Title(参考訳): xLSTM: 長期記憶の拡張
- Authors: Maximilian Beck, Korbinian Pöppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael Kopp, Günter Klambauer, Johannes Brandstetter, Sepp Hochreiter,
- Abstract要約: 1990年代、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
正規化と安定化を適切に行う指数ゲーティングを導入する。
i)スカラーメモリ,スカラー更新,新しいメモリ混合,(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
- 参考スコア(独自算出の注目度): 26.607656211983155
- License:
- Abstract: In the 1990s, the constant error carousel and gating were introduced as the central ideas of the Long Short-Term Memory (LSTM). Since then, LSTMs have stood the test of time and contributed to numerous deep learning success stories, in particular they constituted the first Large Language Models (LLMs). However, the advent of the Transformer technology with parallelizable self-attention at its core marked the dawn of a new era, outpacing LSTMs at scale. We now raise a simple question: How far do we get in language modeling when scaling LSTMs to billions of parameters, leveraging the latest techniques from modern LLMs, but mitigating known limitations of LSTMs? Firstly, we introduce exponential gating with appropriate normalization and stabilization techniques. Secondly, we modify the LSTM memory structure, obtaining: (i) sLSTM with a scalar memory, a scalar update, and new memory mixing, (ii) mLSTM that is fully parallelizable with a matrix memory and a covariance update rule. Integrating these LSTM extensions into residual block backbones yields xLSTM blocks that are then residually stacked into xLSTM architectures. Exponential gating and modified memory structures boost xLSTM capabilities to perform favorably when compared to state-of-the-art Transformers and State Space Models, both in performance and scaling.
- Abstract(参考訳): 1990年代には、Long Short-Term Memory (LSTM) の中心概念として、定数エラーカルーセルとゲーティングが導入された。
それ以来、LSTMは時間の試験に立脚し、特に最初のLarge Language Models (LLMs) を構成する深層学習の成功に寄与してきた。
しかし、トランスフォーマー技術がコアに並列化可能な自己保持技術が出現したことで、LSTMを大規模に上回り、新しい時代の幕開けを告げた。
LSTMを数十億のパラメータにスケーリングする際の言語モデリングは、現在のLLMの最新のテクニックを活用しながら、LSTMの既知の制限を緩和する上で、どの程度の成果を上げますか?
まず,正規化と安定化を適切に行う指数ゲーティングを導入する。
第2に、LSTMメモリ構造を変更し、
(i)スカラーメモリ、スカラー更新、新しいメモリミキシングを備えたsLSTM。
(ii)行列メモリと共分散更新ルールと完全に並列化可能なmLSTM。
これらのLSTM拡張を残留ブロックバックボーンに統合すると、xLSTMブロックが残りのxLSTMアーキテクチャに積み上げられる。
指数ゲーティングと修正メモリ構造は、パフォーマンスとスケーリングの両方において、最先端のトランスフォーマーやステートスペースモデルと比較して、xLSTM能力を向上する。
関連論文リスト
- packetLSTM: Dynamic LSTM Framework for Streaming Data with Varying Feature Space [44.62845936150961]
ストリーミングデータの入力特徴空間の変化を特徴とするオンライン学習問題について検討する。
次元変化ストリームをモデル化するために,パケットLSTMと呼ばれる動的LSTMに基づく新しい手法を提案する。
packetLSTMは5つのデータセットで最先端の結果を達成し、その基本原則はGRUやバニラRNNといった他のRNNタイプにも拡張されている。
論文 参考訳(メタデータ) (2024-10-22T20:01:39Z) - Unlocking the Power of LSTM for Long Term Time Series Forecasting [27.245021350821638]
本稿では, sLSTM 上に実装したP-sLSTM という単純なアルゴリズムを提案する。
これらの改良により、TSFにおけるsLSTMの性能が大幅に向上し、最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-08-19T13:59:26Z) - Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training [78.93900796545523]
ミニシーケンス変換器(Mini-Sequence Transformer, MsT)は、非常に長いシーケンスを持つ高速かつ高精度なLLMトレーニング手法である。
MsTは入力シーケンスを分割し、中間メモリ使用量を減らすためにミニシーケンスを反復的に処理する。
huggingfaceライブラリと統合され、MsTはQwen、Mistral、Gemma-2の最大コンテキスト長を12-24倍に拡張した。
論文 参考訳(メタデータ) (2024-07-22T01:52:30Z) - Vision-LSTM: xLSTM as Generic Vision Backbone [15.268672785769525]
コンピュータビジョンに対する xLSTM ビルディングブロックの適応である Vision-LSTM (ViL) を導入する。
ViLはxLSTMブロックのスタックで構成され、奇異ブロックはパッチトークンのシーケンスを上から下へ処理する。
論文 参考訳(メタデータ) (2024-06-06T17:49:21Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - DeLELSTM: Decomposition-based Linear Explainable LSTM to Capture
Instantaneous and Long-term Effects in Time Series [26.378073712630467]
LSTMの解釈性を改善するために,分解に基づく線形説明可能LSTM(DeLELSTM)を提案する。
3つの経験的データセット上でのDeLELSTMの有効性と解釈性を示す。
論文 参考訳(メタデータ) (2023-08-26T07:45:41Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z) - Working Memory Connections for LSTM [51.742526187978726]
ワーキングメモリ接続は,様々なタスクにおけるLSTMの性能を常に向上することを示す。
数値的な結果は、細胞状態がゲート構造に含まれる価値のある情報を含んでいることを示唆している。
論文 参考訳(メタデータ) (2021-08-31T18:01:30Z) - Future Vector Enhanced LSTM Language Model for LVCSR [67.03726018635174]
本稿では,将来ベクトルを用いた拡張長短期メモリ(LSTM)LMを提案する。
実験の結果,提案したLSTM LMはBLEUスコアよりも長期のシーケンス予測に有効であることがわかった。
新たなLSTM LMと従来のLSTM LMを併用することで,単語誤り率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-07-31T08:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。