Fugu-MT 論文翻訳(概要): Parallelizable memory recurrent units

論文の概要: Parallelizable memory recurrent units

arxiv url: http://arxiv.org/abs/2601.09495v1
Date: Wed, 14 Jan 2026 14:01:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.418713
Title: Parallelizable memory recurrent units
Title（参考訳）: 並列化可能なメモリリカレントユニット
Authors: Florent De Geeter, Gaspard Lambrechts, Damien Ernst, Guillaume Drion,
Abstract要約: 本稿では、非線形RNNの永続的メモリ能力とSSMの並列化計算を組み合わせたメモリリカレントユニット(MRU)を新たに導入する。 BMRUは長期依存型タスクにおいて良好な結果が得られ、状態空間モデルと組み合わせて並列化可能で過渡的ダイナミクスと永続メモリを備えたハイブリッドネットワークを構築することができることを示す。
参考スコア（独自算出の注目度）: 1.3159512679346688
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the emergence of massively parallel processing units, parallelization has become a desirable property for new sequence models. The ability to parallelize the processing of sequences with respect to the sequence length during training is one of the main factors behind the uprising of the Transformer architecture. However, Transformers lack efficiency at sequence generation, as they need to reprocess all past timesteps at every generation step. Recently, state-space models (SSMs) emerged as a more efficient alternative. These new kinds of recurrent neural networks (RNNs) keep the efficient update of the RNNs while gaining parallelization by getting rid of nonlinear dynamics (or recurrence). SSMs can reach state-of-the art performance through the efficient training of potentially very large networks, but still suffer from limited representation capabilities. In particular, SSMs cannot exhibit persistent memory, or the capacity of retaining information for an infinite duration, because of their monostability. In this paper, we introduce a new family of RNNs, the memory recurrent units (MRUs), that combine the persistent memory capabilities of nonlinear RNNs with the parallelizable computations of SSMs. These units leverage multistability as a source of persistent memory, while getting rid of transient dynamics for efficient computations. We then derive a specific implementation as proof-of-concept: the bistable memory recurrent unit (BMRU). This new RNN is compatible with the parallel scan algorithm. We show that BMRU achieves good results in tasks with long-term dependencies, and can be combined with state-space models to create hybrid networks that are parallelizable and have transient dynamics as well as persistent memory.
Abstract（参考訳）: 大規模並列処理ユニットの出現に伴い、並列化は新しいシーケンスモデルにとって望ましい性質となっている。トレーニング中のシーケンスの長さに関するシーケンスの処理を並列化する能力は、Transformerアーキテクチャの反乱の背後にある主要な要因の1つである。しかし、Transformerはシーケンス生成の効率を欠いているため、すべての生成ステップで過去のタイムステップを再処理する必要がある。近年、ステートスペースモデル(SSM)がより効率的な代替手段として登場した。これらの新しいタイプのリカレントニューラルネットワーク(RNN)は、非線形ダイナミクス(または再発)を取り除くことで並列化を得ながら、RNNの効率的な更新を維持している。 SSMは、潜在的に非常に大きなネットワークの効率的なトレーニングを通じて、最先端のパフォーマンスに到達することができるが、それでも限られた表現能力に悩まされている。特に、SSMは、永続的なメモリや、その独占性のため、無限の持続時間情報を保持する能力は持たない。本稿では、非線形RNNの永続的メモリ能力とSSMの並列化計算を組み合わせたメモリリカレントユニット(MRU)を新たに導入する。これらのユニットは、効率的な計算のために過渡的ダイナミクスを排除しながら、永続メモリのソースとしてマルチスタビリティを利用する。次に、ビスタブルメモリリカレントユニット(BMRU)という概念実証として、特定の実装を導出する。この新しいRNNは並列スキャンアルゴリズムと互換性がある。 BMRUは長期依存型タスクにおいて良好な結果が得られ、状態空間モデルと組み合わせて並列化可能で過渡的ダイナミクスと永続メモリを備えたハイブリッドネットワークを構築することができることを示す。

関連論文リスト

Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2026-02-27T18:53:41Z)
mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文参考訳（メタデータ） (2025-07-02T15:44:35Z)
A Scalable Hybrid Training Approach for Recurrent Spiking Neural Networks [13.220581846415957]
本稿では、並列化の効率と近似オンライン前方学習を組み合わせたHYPR(HYbrid PRopagation)を提案する。 HYPRは、ほぼ任意の非線形スパイキングニューロンモデルからなるRSNNのサブシーケンスに対するパラメータ更新の並列化を可能にする。このタイプのニューロンモデルは、HYPRにより特に訓練可能であり、前向き勾配学習とBPTTの間には、前例のない低いタスク性能のギャップが生じることが判明した。
論文参考訳（メタデータ） (2025-06-17T12:27:25Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文参考訳（メタデータ） (2024-12-16T14:23:31Z)
PRF: Parallel Resonate and Fire Neuron for Long Sequence Learning in Spiking Neural Networks [6.545474731089018]
スパイキングニューラルネットワーク(SNN)における長周期学習の効率性と性能の課題を同時に解決する。まず,典型的なLeaky Integrate-and-Fire(LIF)モデルのトレーニング時間を$O(L2)$から$O(Llog L)$に短縮する。第二に、長距離依存性を捉えるために、複素領域における微分可能リセット関数から共振機構によって駆動される振動膜電位を利用するパラレル共鳴・火災ニューロン(PRF)を提案する。
論文参考訳（メタデータ） (2024-10-04T15:51:56Z)
Were RNNs All We Needed? [55.822693848969855]
本研究では、リカレントニューラルネットワーク(RNN)に着目し、歴史的観点からのシーケンスモデリングを再考する。これらのモデルを簡単にすることで、従来のモデルよりも少ないパラメータを使用する最小バージョン(minLSTMとminGRU)を導出でき、トレーニング中に完全に並列化可能であり、トランスフォーマーを含む最近のモデルに対抗して、様々なタスクにおいて驚くほど競争力のあるパフォーマンスを達成することができることを実証した。
論文参考訳（メタデータ） (2024-10-02T03:06:49Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文参考訳（メタデータ） (2023-05-30T19:25:51Z)
RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-05-22T13:57:41Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。