論文の概要: MesaNet: Sequence Modeling by Locally Optimal Test-Time Training
- arxiv url: http://arxiv.org/abs/2506.05233v1
- Date: Thu, 05 Jun 2025 16:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.831777
- Title: MesaNet: Sequence Modeling by Locally Optimal Test-Time Training
- Title(参考訳): MesaNet: 局所最適テストタイムトレーニングによるシーケンスモデリング
- Authors: Johannes von Oswald, Nino Scherrer, Seijin Kobayashi, Luca Versari, Songlin Yang, Maximilian Schlegel, Kaitlin Maile, Yanick Schimpf, Oliver Sieberling, Alexander Meulemans, Rif A. Saurous, Guillaume Lajoie, Charlotte Frenkel, Razvan Pascanu, Blaise Agüera y Arcas, João Sacramento,
- Abstract要約: 我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。
テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 67.45211108321203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence modeling is currently dominated by causal transformer architectures that use softmax self-attention. Although widely adopted, transformers require scaling memory and compute linearly during inference. A recent stream of work linearized the softmax operation, resulting in powerful recurrent neural network (RNN) models with constant memory and compute costs such as DeltaNet, Mamba or xLSTM. These models can be unified by noting that their recurrent layer dynamics can all be derived from an in-context regression objective, approximately optimized through an online learning rule. Here, we join this line of work and introduce a numerically stable, chunkwise parallelizable version of the recently proposed Mesa layer (von Oswald et al., 2024), and study it in language modeling at the billion-parameter scale. This layer again stems from an in-context loss, but which is now minimized to optimality at every time point using a fast conjugate gradient solver. Through an extensive suite of experiments, we show that optimal test-time training enables reaching lower language modeling perplexity and higher downstream benchmark performance than previous RNNs, especially on tasks requiring long context understanding. This performance gain comes at the cost of additional flops spent during inference time. Our results are therefore intriguingly related to recent trends of increasing test-time compute to improve performance -- here by spending compute to solve sequential optimization problems within the neural network itself.
- Abstract(参考訳): シーケンスモデリングは現在、Softmax自己アテンションを使用する因果トランスフォーマーアーキテクチャによって支配されている。
広く採用されているが、トランスフォーマーはメモリのスケーリングと推論中に線形に計算する必要がある。
最近の作業ストリームでは、Softmax操作を線形化し、一定のメモリとDeltaNet、Mamba、xLSTMなどの計算コストを備えた強力なリカレントニューラルネットワーク(RNN)モデルが実現した。
これらのモデルは、リカレントレイヤのダイナミクスがすべて、オンライン学習ルールを通じて概ね最適化されたコンテキスト内回帰目標から導出できることに注意して、統一することができる。
そこで本研究では,最近提案されたMesa層(von Oswald et al , 2024)の数値的に安定な並列化可能なバージョンを導入し,10億パラメータスケールでの言語モデリングについて検討する。
この層は再びコンテキスト内損失に起因するが、現在では高速共役勾配解法を用いて各時点の最適度に最小化されている。
幅広い実験を通して、最適なテストタイムトレーニングにより、特に長期の文脈理解を必要とするタスクにおいて、言語モデリングの難易度を低くし、より下流のベンチマーク性能を向上できることを示す。
このパフォーマンス向上は、推論時間に費やされた追加のフロップのコストによって実現される。
それゆえ、私たちの結果は、パフォーマンスを改善するためにテスト時間計算を増やす最近のトレンドと興味深い関係にあります。
関連論文リスト
- Bidirectional Linear Recurrent Models for Sequence-Level Multisource Fusion [10.867398697751742]
BLUR(Bidirectional Linear Unit for Recurrent Network)を導入し,前向きおよび後向きの線形リカレントユニット(LRU)を用いて,過去および将来の依存関係を高い計算効率で捕捉する。
逐次画像と時系列データセットの実験により、BLURはトランスフォーマーや従来のRNNをはるかに上回るだけでなく、計算コストを大幅に削減することが明らかになった。
論文 参考訳(メタデータ) (2025-04-11T20:42:58Z) - Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。
勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文 参考訳(メタデータ) (2024-08-23T17:16:43Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Oscillatory Fourier Neural Network: A Compact and Efficient Architecture
for Sequential Processing [16.69710555668727]
本稿では,コサイン活性化と時系列処理のための時間変化成分を有する新しいニューロンモデルを提案する。
提案したニューロンは、スペクトル領域に逐次入力を投影するための効率的なビルディングブロックを提供する。
IMDBデータセットの感情分析に提案されたモデルを適用すると、5時間以内のテスト精度は89.4%に達する。
論文 参考訳(メタデータ) (2021-09-14T19:08:07Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。