Fugu-MT 論文翻訳(概要): Efficient Sparse Selective-Update RNNs for Long-Range Sequence Modeling

論文の概要: Efficient Sparse Selective-Update RNNs for Long-Range Sequence Modeling

arxiv url: http://arxiv.org/abs/2603.02226v1
Date: Wed, 11 Feb 2026 14:50:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 01:20:08.090503
Title: Efficient Sparse Selective-Update RNNs for Long-Range Sequence Modeling
Title（参考訳）: 長距離シーケンスモデリングのための効率的なスパース選択更新RNN
Authors: Bojian Yin, Shurong Wang, Haoyu Tan, Sander Bohte, Federico Corradi, Guoqi Li,
Abstract要約: Selective-Update RNN(suRNN)は、入力が冗長であるときにメモリを保存することを学習する非線形アーキテクチャである。情報イベントのみをオープンするニューロンレベルのバイナリスイッチを使用することで、SuRNNは、繰り返し更新を生のシーケンス長から切り離す。 Long Range Arena、WikiText、その他の総合ベンチマークの実験では、SuRNNはより複雑なモデルの精度と一致するか、超えるかを示している。
参考スコア（独自算出の注目度）: 16.27516369166629
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Real-world sequential signals, such as audio or video, contain critical information that is often embedded within long periods of silence or noise. While recurrent neural networks (RNNs) are designed to process such data efficiently, they often suffer from ``memory decay'' due to a rigid update schedule: they typically update their internal state at every time step, even when the input is static. This constant activity forces the model to overwrite its own memory and makes it hard for the learning signal to reach back to distant past events. Here we show that we can overcome this limitation using Selective-Update RNNs (suRNNs), a non-linear architecture that learns to preserve its memory when the input is redundant. By using a neuron-level binary switch that only opens for informative events, suRNNs decouple the recurrent updates from the raw sequence length. This mechanism allows the model to maintain an exact, unchanged memory of the past during low-information intervals, creating a direct path for gradients to flow across time. Our experiments on the Long Range Arena, WikiText, and other synthetic benchmarks show that suRNNs match or exceed the accuracy of much more complex models such as Transformers, while remaining significantly more efficient for long-term storage. By allowing each neuron to learn its own update timescale, our approach resolves the mismatch between how long a sequence is and how much information it actually contains. By providing a principled approach to managing temporal information density, this work establishes a new direction for achieving Transformer-level performance within the highly efficient framework of recurrent modeling.
Abstract（参考訳）: 音声やビデオなどの実世界のシーケンシャル信号には、沈黙や雑音の長い時間内に埋め込まれる重要な情報が含まれている。リカレントニューラルネットワーク(RNN)は、そのようなデータを効率的に処理するように設計されているが、厳格な更新スケジュールのため、しばしば '`Memory decay'' に悩まされる: 入力が静的である場合でも、通常、各ステップで内部状態を更新する。この一定の活動は、モデルに自身のメモリを上書きさせ、学習信号が遠い過去の事象に戻るのを難しくする。ここでは、入力が冗長な場合にメモリを保存することを学習する非線形アーキテクチャであるSelective-Update RNNs(suRNNs)を用いて、この制限を克服できることを示す。情報イベントのみをオープンするニューロンレベルのバイナリスイッチを使用することで、SuRNNは、繰り返し更新を生のシーケンス長から切り離す。このメカニズムにより、低情報間隔で過去の正確な変化のないメモリを維持でき、時間にわたって流れていく勾配の直接的な経路を作ることができる。 Long Range Arena, WikiText, およびその他の総合ベンチマークによる実験の結果, suRNN は Transformers などのより複雑なモデルの精度と一致し, 長期保存にはかなり効率がよいことがわかった。それぞれのニューロンが自身の更新タイムスケールを学習できるようにすることで、シーケンスの長さと実際の情報量とのミスマッチを解決します。時間的情報密度を管理するための原則的アプローチを提供することにより、再帰的モデリングの高効率フレームワークにおいてトランスフォーマーレベルのパフォーマンスを達成するための新たな方向性を確立する。

関連論文リスト

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Decision Trees That Remember: Gradient-Based Learning of Recurrent Decision Trees with Memory [1.4487264853431878]
我々はReMeDe Treesを紹介した。ReMeDe Treesは、RNNに似た内部メモリ機構を統合して、シーケンシャルデータにおける長期依存を学習する新しいDTアーキテクチャである。我々のモデルは、出力生成と状態更新の両方に対して、厳密な軸整列決定ルールを学習し、勾配降下により効率よく最適化する。
論文参考訳（メタデータ） (2025-02-06T13:11:50Z)
Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文参考訳（メタデータ） (2024-12-16T14:23:31Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Memory Efficient Neural Processes via Constant Memory Attention Block [55.82269384896986]
CMANP(Constant Memory Attentive Neural Processs)は、NPの変種である。我々は,CMANPが従来の手法よりもはるかにメモリ効率が良く,NPベンチマークで最先端の結果が得られることを示した。
論文参考訳（メタデータ） (2023-05-23T23:10:19Z)
Saving RNN Computations with a Neuron-Level Fuzzy Memoization Scheme [0.0]
リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)は、音声認識や機械翻訳などのアプリケーションにおいて重要な技術である。我々は,各ニューロンの出力を動的にキャッシュし,現在の出力が以前計算された結果に類似すると予測されたときに再利用する,ニューロンレベルのファジィメモ化スキームを構築した。提案手法は26.7%以上の計算を回避し、21%の省エネと1.4倍の高速化を実現している。
論文参考訳（メタデータ） (2022-02-14T09:02:03Z)
Least Redundant Gated Recurrent Neural Network [0.0]
我々は、Deep Memory Update (DMU)と呼ばれるリカレントニューラルネットワークを導入する。これは、ラグ状態とネットワーク入力の深い変換により、前のメモリ状態を更新することに基づいている。学習速度をモジュールのサイズに関連付けるため、トレーニングは安定して高速である。
論文参考訳（メタデータ） (2021-05-28T20:24:00Z)
Incremental Training of a Recurrent Neural Network Exploiting a Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文参考訳（メタデータ） (2020-06-29T08:35:49Z)
Learning Long-Term Dependencies in Irregularly-Sampled Time Series [16.762335749650717]
連続時間隠れ状態を持つリカレントニューラルネットワーク(RNN)は、不規則サンプリング時系列のモデリングに自然に適合する。我々は、標準のRNNと同様、この問題の根底にある理由は、トレーニング中に勾配が消滅または爆発することにあることを証明している。我々は,その時間連続状態からメモリを分離する長寿命メモリ(LSTM)に基づく新しいアルゴリズムを設計することで,その解を提供する。
論文参考訳（メタデータ） (2020-06-08T08:46:58Z)
Recognizing Long Grammatical Sequences Using Recurrent Networks Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。 RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文参考訳（メタデータ） (2020-04-04T14:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。