論文の概要: Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior
- arxiv url: http://arxiv.org/abs/2605.26797v1
- Date: Tue, 26 May 2026 10:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.873652
- Title: Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior
- Title(参考訳): 潜時リカレントトランス - アーキテクチャ探索,トレーニング戦略,スケーリング行動
- Authors: Zeyi Huang, Xuehai He, LiLiang Ren, Yiping Wang, Baolin Peng, Hao Cheng, Shuohang Wang, Pengcheng He, Jianfeng Gao, Yong Jae Lee, Yelong Shen,
- Abstract要約: Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
- 参考スコア(独自算出の注目度): 107.2098567818173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Latent Recurrent Transformer (LRT), a lightweight augmentation of autoregressive transformers that reuses a high-level source-layer hidden state from the previous token as recurrent memory for the next token. Because this source state is already computed during ordinary decoding, LRT adds a cross-layer recurrent latent pathway across positions without inserting pause tokens or extra depth loops, and the standard attention mechanism and KV-cache interface are preserved. To pretrain this recurrence at scale without sequentially unrolling the transformer, we introduce interleaved parallel training: a single full-sequence initialization forward pass builds a shared buffer; then disjoint position subsets are refined in parallel and written back, so that all tokens receive recurrent-memory-aware supervision at roughly 2 times baseline compute. Across nanochat style backbones and a wide range of tokens-per-parameter budgets, LRT improves both language-modeling loss and in-context learning under matched effective compute while adding as little as 0.3% parameters.
- Abstract(参考訳): 本稿では,次のトークンのリカレントメモリとして,前トークンからの高レベルソース層隠蔽状態を再利用した,自己回帰変換器の軽量化であるLatent Recurrent Transformer (LRT)について検討する。
このソース状態はすでに通常の復号中に計算されているため、LRTは停止トークンや余分な深度ループを挿入することなく、位置をまたいだ層横断の遅延経路を追加し、標準のアテンション機構とKV-cacheインタフェースを保存している。
1つのフルシーケンス初期化フォワードパスが共有バッファを構築し、その後、非結合位置サブセットが並列に洗練され、書き戻され、全てのトークンが、約2倍のベースライン計算でリカレントメモリ対応の監視を受ける。
ナノチャットスタイルのバックボーンと、幅広いトークン単位の予算によって、LRTは、一致した有効計算の下での言語モデリング損失とコンテキスト内学習の両方を改善し、最大0.3%のパラメータを追加している。
関連論文リスト
- Replacement Learning: Training Neural Networks with Fewer Parameters [15.09968642484538]
Replacement Learning (RepL) は、選択したブロックを置き換えることで、完全な冗長性を減らす訓練時間パラダイムである。
RepLは、不要なフルレイヤを避けながら、局所的なコンテキスト連続性を維持する。
RepLはトレーニング可能なパラメータ、GPUメモリ使用量、トレーニング時間を削減し、標準のエンドツーエンドトレーニングを適合または超過することを示す。
論文 参考訳(メタデータ) (2026-05-19T08:34:31Z) - Parallel Recursive LSTM [26.883902799977964]
並列再帰型LSTM(Parallel Recursive LSTM)は,左から右への再帰を平衡計算木上の非線形状態合成に置き換える階層的再帰型アーキテクチャである。
PR-LSTMは、標準RNN、LSTM、Transformerベースラインよりも多くのタスクを解決し、注意の2次スケーリングを避けながら、フォーマルなベンチマーク上で強力なシーケンス長の一般化を実現する。
論文 参考訳(メタデータ) (2026-05-16T18:28:59Z) - N-vium: Mixture-of-Exits Transformer for Accelerated Exact Generation [68.47358899451255]
N-vium (N-vium) は、標準ハードウェア上での計算を部分的に並列化する変圧器である。
N-Viumは複数の深さで予測ヘッドを付加し、次のトーケン分布をこれらの出口上の学習混合物として定義する。
論文 参考訳(メタデータ) (2026-05-13T08:46:17Z) - The Recurrent Transformer: Greater Effective Depth and Efficient Decoding [48.9323408950142]
Recurrent Transformerは、各レイヤがそれぞれのアクティベーションから計算されたキーと値のペアに付随する、シンプルなアーキテクチャ変更である。
このアーキテクチャは, (i) 従来のトランスフォーマーと (ii) トークン・ツー・グレッシブ・リカレント更新の両方を軽度な仮定でエミュレートできることを示す。
論文 参考訳(メタデータ) (2026-04-23T02:12:58Z) - Routing without Forgetting [20.60324059904291]
変換器における連続学習をルーティング問題として再放送する。
タスク固有のプロンプトを格納またはマージする代わりに、RwFはシングルステップの連想検索を通じて動的プロンプトを生成する。
Split-ImageNet-R と Split-ImageNet-S では、RwF は数ショットの学習システムであっても、事前のプロンプトベースのアプローチよりも大きなマージンでパフォーマンスを向上している。
論文 参考訳(メタデータ) (2026-03-10T12:23:46Z) - Rethinking Weight Tying: Pseudo-Inverse Tying for Stable LM Training and Updates [22.84428628659889]
Pseudo-Inverse Tyingはトレーニングを通じて擬似逆整合インターフェースを保証する。
256M-1.3Bパラメータにまたがるデバイス上でのPITを評価する。
論文 参考訳(メタデータ) (2026-02-04T13:44:53Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Multimodal Transformer with Variable-length Memory for
Vision-and-Language Navigation [79.1669476932147]
VLN(Vision-and-Language Navigation)は、エージェントが目標位置に向かうために言語命令に従う必要があるタスクである。
近年のTransformer-based VLN法は,視覚的観察と言語指導の直接的な結びつきから大きな進歩を遂げている。
視覚的な自然言語ナビゲーションのための可変長メモリ(MTVM)を備えたマルチモーダルトランス (Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2021-11-10T16:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。