論文の概要: LT2: Linear-Time Looped Transformers
- arxiv url: http://arxiv.org/abs/2605.20670v2
- Date: Fri, 22 May 2026 21:41:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.847719
- Title: LT2: Linear-Time Looped Transformers
- Title(参考訳): LT2: 線形時間ループ変換器
- Authors: Chunyuan Deng, Yizhe Zhang, Rui-Jie Zhu, Yuanyuan Xu, Jiarui Liu, T. S. Eugene Ng, Hanjie Chen,
- Abstract要約: 本稿では,2次ソフトマックスアテンションを4次線形アテンションに置き換えるループ型アーキテクチャであるLT2を紹介する。
制御されたリコール、状態追跡、言語モデリングタスクにおいて、一貫した経験的ゲインを示す。
2つの変種は特に有望である: LT2-hybrid (GDN+DSA) は、線形および疎注意をインターリーブし、効率を最大化し、標準ループ変換器の品質を完全な線形時間で一致させる。
- 参考スコア(独自算出の注目度): 24.49487079056893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Looped Transformers (LT) have emerged as a powerful architecture by iterating their layers multiple times before decoding the final token. However, pairing them with full attention retains quadratic complexity, making them computationally expensive and slow. We introduce LT2 (Linear-Time Looped Transformers), a family of looped architectures that replace quadratic softmax attention with subquadratic, linear-time attention. We study two variants: LT2-linear with linear attention and LT2-sparse with sparse attention. We find that looping uniquely synergizes with these variants: it enables iterative memory refinement in linear attention and progressively expands the effective receptive field in sparse attention. We formalize these benefits theoretically and demonstrate consistent empirical gains across controlled recall, state-tracking, and language modeling tasks. We then explore LT2-hybrid, which combines different attention variants in a looped setting. Two variants are especially promising: LT2-hybrid (GDN+DSA), which interleaves linear and sparse attention to maximize efficiency and matches the standard looped transformer's quality at fully linear-time cost; and LT2-hybrid (Full+GDN), which interleaves GDN with a small fraction of full attention layers to maximize quality, surpassing the standard looped transformer in both performance and efficiency. We also show how to convert a pre-trained LT into an LT2-hybrid model. With about 1B tokens of training, our converted model, Ouro-hybrid-1.4B, outperforms industry-level 1B models and is competitive with industry-level 4B models while retaining the speed benefits of linear-time attention. Together, these results show a clear path toward making looped transformers more scalable and advancing efficient, capable small language models.
- Abstract(参考訳): Looped Transformer (LT) は,最後のトークンを復号する前にレイヤを複数回繰り返すことで,強力なアーキテクチャとして登場した。
しかし、それらと完全な注意を合わせると二次的な複雑さを保ち、計算的に高価で遅くなる。
本稿では,2次ソフトマックスアテンションを4次線形時間アテンションに置き換えるループアーキテクチャのファミリであるLT2(Linear-Time Looped Transformers)を紹介する。
線形注意を持つLT2-linearと疎注意を持つLT2-sparseの2種類について検討した。
ループはリニアアテンションにおいて反復的なメモリリファインメントを可能にし、スパースアテンションにおいて効果的な受容野を徐々に拡張する。
我々はこれらの利点を理論的に定式化し、制御されたリコール、状態追跡、言語モデリングタスク間で一貫した経験的利益を示す。
次に、ループ設定で異なる注意変動を組み合わせたLT2-hybridを探索する。
2つの変種は特に有望である: LT2-hybrid (GDN+DSA) は線形および疎い注意を引いて効率を最大化し、標準ループ変換器の品質を完全な線形時間で一致させる。
また、事前学習したLTをLT2ハイブリッドモデルに変換する方法を示す。
約1Bのトレーニングトークンを用いて、変換されたモデルであるOuro-hybrid-1.4Bは、業界レベルの1Bモデルより優れており、リニアタイムアテンションの速度メリットを維持しながら、業界レベルの4Bモデルと競合する。
これらの結果から,ループ型トランスフォーマーをよりスケーラブルで,効率よく,能力の高い小型言語モデルを実現するための明確な道筋が示される。
関連論文リスト
- Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。