論文の概要: TNT: Improving Chunkwise Training for Test-Time Memorization
- arxiv url: http://arxiv.org/abs/2511.07343v1
- Date: Mon, 10 Nov 2025 17:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.401561
- Title: TNT: Improving Chunkwise Training for Test-Time Memorization
- Title(参考訳): TNT:テスト時間記憶のためのチャンクワイズトレーニングの改善
- Authors: Zeman Li, Ali Behrouz, Yuan Deng, Peilin Zhong, Praneeth Kacham, Mahdi Karami, Meisam Razaviyayn, Vahab Mirrokni,
- Abstract要約: タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。
TNTは,2段階のプロセスを通じて,推論性能からトレーニング効率を分離する,新たなトレーニングパラダイムである。
TNTはトレーニング速度を最も正確なベースライン構成の17倍に高速化する。
- 参考スコア(独自算出の注目度): 62.78875147721906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent neural networks (RNNs) with deep test-time memorization modules, such as Titans and TTT, represent a promising, linearly-scaling paradigm distinct from Transformers. While these expressive models do not yet match the peak performance of state-of-the-art Transformers, their potential has been largely untapped due to prohibitively slow training and low hardware utilization. Existing parallelization methods force a fundamental conflict governed by the chunksize hyperparameter: large chunks boost speed but degrade performance, necessitating a fixed, suboptimal compromise. To solve this challenge, we introduce TNT, a novel training paradigm that decouples training efficiency from inference performance through a two-stage process. Stage one is an efficiency-focused pre-training phase utilizing a hierarchical memory. A global module processes large, hardware-friendly chunks for long-range context, while multiple parallel local modules handle fine-grained details. Crucially, by periodically resetting local memory states, we break sequential dependencies to enable massive context parallelization. Stage two is a brief fine-tuning phase where only the local memory modules are adapted to a smaller, high-resolution chunksize, maximizing accuracy with minimal overhead. Evaluated on Titans and TTT models, TNT achieves a substantial acceleration in training speed-up to 17 times faster than the most accurate baseline configuration - while simultaneously improving model accuracy. This improvement removes a critical scalability barrier, establishing a practical foundation for developing expressive RNNs and facilitating future work to close the performance gap with Transformers.
- Abstract(参考訳): タイタンスやTTTのような深いテストタイム記憶モジュールを持つリカレントニューラルネットワーク(RNN)は、トランスフォーマーとは異なる有望で線形にスケールするパラダイムである。
これらの表現力のあるモデルは、最先端のトランスフォーマーのピーク性能とはまだ一致していないが、トレーニングの遅さとハードウェア利用の低さにより、そのポテンシャルはほとんど失われている。
既存の並列化手法は、チャンクサイズハイパーパラメータによって支配される基本的な競合を強制する: 大きなチャンクは速度を向上するが性能を低下させ、固定された最適以下の妥協を必要とする。
この課題を解決するために,2段階のプロセスを通じて推論性能からトレーニング効率を分離する,新しいトレーニングパラダイムであるTNTを導入する。
ステージ1は、階層記憶を利用した効率重視の事前学習フェーズである。
グローバルモジュールは、大きなハードウェアフレンドリーなチャンクを長距離コンテキストで処理し、複数の並列ローカルモジュールはきめ細かい詳細を処理する。
重要なことに、ローカルメモリ状態を定期的にリセットすることで、シーケンシャルな依存関係を分解して、大規模なコンテキスト並列化を可能にします。
ステージ2は、ローカルメモリモジュールのみがより小さく、高解像度のチャンクサイズに適応し、最小限のオーバーヘッドで精度を最大化する、簡単な微調整フェーズである。
タイタンスモデルとTTTモデルに基づいて評価すると、TNTはトレーニングの速度を最も正確なベースライン構成の17倍に向上すると同時に、モデルの精度も向上する。
この改善は、重要なスケーラビリティ障壁を排除し、表現力のあるRNNを開発するための実践的な基盤を確立し、Transformerによるパフォーマンスギャップを埋めるために、今後の作業を容易にする。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Scaling Recurrent Neural Networks to a Billion Parameters with Zero-Order Optimization [0.0]
FLOPとGPUメモリにおけるRNNのスケール定数は、コンテキスト長が増加する。
変換器はFLOPで線形に、そしてせいぜい、生成中のメモリで線形にスケールする。
標準最適化手法は時間によるバックプロパゲーションに依存しているため、長い文脈での大規模RNNの訓練は実用的ではない。
論文 参考訳(メタデータ) (2025-05-23T13:04:06Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。