論文の概要: Echo State Transformer: When chaos brings memory
- arxiv url: http://arxiv.org/abs/2507.02917v1
- Date: Wed, 25 Jun 2025 09:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.520026
- Title: Echo State Transformer: When chaos brings memory
- Title(参考訳): Echo State Transformer: カオスがメモリをもたらすとき
- Authors: Yannis Bendi-Ouis, Xavier Hinaut,
- Abstract要約: 本稿では,逐次データ処理のためのハイブリッドアーキテクチャであるEcho State Transformers (EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは各処理ステップで一定の計算複雑性を達成し、標準変換器の2次スケーリング問題を効果的に破る。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models and their underlying Transformer architecture are remarkably efficient, they do not reflect how our brain processes and learns a diversity of cognitive tasks such as language and working memory. Furthermore, sequential data processing with Transformers encounters a fundamental barrier: quadratic complexity growth with sequence length. Motivated by these limitations, our ambition is to create more efficient models that are less reliant on intensive computations and massive volumes of data. We introduce Echo State Transformers (EST), a hybrid architecture that elegantly resolves this challenge while demonstrating exceptional performance in low-data regimes. EST integrates the Transformer attention mechanisms with principles from Reservoir Computing to create a fixedsize window distributed memory system. Drawing inspiration from Echo State Networks, the most prominent instance of the Reservoir Computing paradigm, our architecture integrates a new module called ''Working Memory'' based on several reservoirs (i.e. random recurrent networks) working in parallel. These reservoirs work as independent memory units with distinct internal dynamics. A novelty here is that the classical reservoir hyperparameters controlling the dynamics are now trained. Thus, the EST dynamically adapts the memory/non-linearity trade-off in reservoirs. By maintaining a fixed number of memory units regardless of sequence length, EST achieves constant computational complexity at each processing step, effectively breaking the quadratic scaling problem of standard Transformers. Evaluations on the STREAM benchmark, which comprises 12 diverse sequential processing tasks, demonstrate that EST outperforms GRUs, LSTMs, and even Transformers on 8 of these tasks. These findings highlight that Echo State Transformers can be an effective replacement to GRUs and LSTMs while complementing standard Transformers at least on resource-constrained environments and low-data scenarios across diverse sequential processing tasks.
- Abstract(参考訳): 大きな言語モデルとその基盤となるTransformerアーキテクチャは極めて効率的ですが、私たちの脳がどのように処理し、言語やワーキングメモリといった認知タスクの多様性を学ぶかを反映していません。
さらに、Transformersによるシーケンシャルなデータ処理は、シーケンシャルな複雑性成長とシーケンシャルな長さという、基本的な障壁に直面している。
これらの制限によって動機づけられた私たちの野望は、集中的な計算や大量のデータに依存しないより効率的なモデルを作ることです。
我々は,この課題をエレガントに解決し,低データのレシエーションにおいて例外的な性能を示すハイブリッドアーキテクチャであるEcho State Transformers (EST)を紹介した。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
Reservoir Computingパラダイムの最も顕著な例であるEcho State Networksからインスピレーションを得た私たちのアーキテクチャは、並列に動作する複数のリレーブ(ランダムリカレントネットワーク)に基づいて、'Working Memory'と呼ばれる新しいモジュールを統合する。
これらの貯水池は、異なる内部ダイナミクスを持つ独立したメモリユニットとして機能する。
ここでの新たな特徴は、力学を制御する古典的な貯水池のハイパーパラメータが現在訓練されていることである。
したがって、ESTは貯水池のメモリ/非線形トレードオフを動的に適応させる。
シーケンス長に関わらず一定数のメモリユニットを維持することにより、ESTは各処理ステップで一定の計算複雑性を達成し、標準変換器の二次スケーリング問題を効果的に破壊する。
12の異なるシーケンシャルな処理タスクからなるSTREAMベンチマークの評価では、ESTがGRU、LSTM、さらには8つのタスクのトランスフォーマーよりも優れていることが示されている。
これらの結果から,Echo State Transformer は GRU や LSTM の代替として有効であると同時に,リソース制約のある環境やさまざまなシーケンシャルな処理タスクにおける低データシナリオにおいて,標準の Transformer を補完する可能性が示唆された。
関連論文リスト
- Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。
隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。
実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文 参考訳(メタデータ) (2025-06-26T08:41:45Z) - Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。
本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。
この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文 参考訳(メタデータ) (2025-04-08T22:16:54Z) - Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。
本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。
我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文 参考訳(メタデータ) (2025-02-26T05:31:44Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。