論文の概要: Hyperloop Transformers
- arxiv url: http://arxiv.org/abs/2604.21254v2
- Date: Sat, 25 Apr 2026 23:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 13:03:00.562676
- Title: Hyperloop Transformers
- Title(参考訳): ハイパーループトランス
- Authors: Abbas Zeitoun, Lucas Torroba-Hennigen, Yoon Kim,
- Abstract要約: 本稿では,LLMのパラメータ効率を向上させるシンプルなアーキテクチャについて述べる。
私たちのアーキテクチャでは、ループトランスフォーマーをコアプリミティブとして使用しています。
様々なモデルスケールで、Hyper-Connected Looped Transformer (Hyperloop Transformer) が深度整合トランスやmHC Transformerベースラインより優れていることが分かりました。
- 参考スコア(独自算出の注目度): 38.20655701624794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM architecture research generally aims to maximize model quality subject to fixed compute/latency budgets. However, many applications of interest such as edge and on-device deployment are further constrained by the model's memory footprint, thus motivating parameter-efficient architectures for language modeling. This paper describes a simple architecture that improves the parameter-efficiency of LLMs. Our architecture makes use of looped Transformers as a core primitive, which reuse Transformer layers across depth and are thus more parameter-efficient than ordinary (depth-matched) Transformers. We organize the looped Transformer into three blocks--begin, middle, and end blocks--where each block itself consists of multiple Transformer layers, and only the middle block is applied recurrently across depth. We augment the looped middle block with hyper-connections (Xie et al., 2026), which expand the residual stream into matrix-valued residual streams. Hyper-connections are applied only after each loop, and therefore add minimal new parameters and compute cost. Across various model scales, we find that our Hyper-Connected Looped Transformer (Hyperloop Transformer) is able to outperform depth-matched Transformer and mHC Transformer baselines despite using approximately 50% fewer parameters. The outperformance persists through post-training weight quantization, thus positioning Hyperloop Transformers as an attractive architecture for memory-efficient language modeling.
- Abstract(参考訳): LLMアーキテクチャの研究は一般に、固定された計算/遅延予算のモデル品質を最大化することを目的としている。
しかし、エッジやオンデバイスデプロイメントといった多くの興味ある応用は、モデルのメモリフットプリントによってさらに制約されるため、言語モデリングのためのパラメータ効率の良いアーキテクチャを動機付けている。
本稿では,LLMのパラメータ効率を向上させるシンプルなアーキテクチャについて述べる。
我々のアーキテクチャはループトランスフォーマーをコアプリミティブとして利用しており、トランスフォーマー層を深さにわたって再利用し、通常の(深さマッチング)トランスフォーマーよりもパラメータ効率が高い。
ループ化トランスフォーマーを3つのブロック – ベジン,ミドル,エンドブロック – に編成し,各ブロックは複数のトランスフォーマー層から構成される。
ハイパーコネクション(Xie et al , 2026)でループした中間ブロックを拡大し, 残留ストリームを行列値の残留ストリームに拡張する。
ハイパーコネクションは各ループの後にのみ適用され、従って新しいパラメータと計算コストが最小限に抑えられる。
その結果,ハイパーループ変換器(Hyperloop Transformer,Hyperloop Transformer,Hyperloop Transformer,Hyperloop Transformer,Hyperloop Transformer,Hyperloop Transformer)は,パラメータが約50%少ないにもかかわらず,奥行き整合変換器やmHC Transformerのベースラインよりも優れていることがわかった。
その結果、ハイパーループ変換器はメモリ効率のよい言語モデリングのための魅力的なアーキテクチャとして位置づけられる。
関連論文リスト
- DeepCoT: Deep Continual Transformers for Real-Time Inference on Data Streams [63.27233749591346]
トランスフォーマーベースのモデルは、ますます複雑なタスクに取り組むために、そのサイズとパラメータ数を劇的に増加させてきた。
ストリームデータ推論は通常、スライディング時間ウィンドウ上で実行され、非常に冗長な計算に繋がる。
提案するDeep Continual Transformer(DeepCoT)は冗長性のないエンコーダのみのモデルであり,最小限の変更で既存のディープエンコーダアーキテクチャに適用できる。
論文 参考訳(メタデータ) (2025-11-21T16:15:43Z) - Echo State Transformer: Attention Over Finite Memories [2.118933003468525]
本稿では,逐次データ処理の課題をエレガントに解決するハイブリッドアーキテクチャであるEcho State Transformers(EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは5つのカテゴリのうち2つで総合的にランク付けし、分類と異常検出タスクにおける最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-25T09:56:25Z) - Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Scaling Efficient LLMs [0.0]
変圧器の「AIスケーリング法則」は、パラメータの数はデータのサイズと線形にスケールする必要があることを示唆している。
本稿では,リカレント変圧器と再カレントネットワークの有効性を組み合わせた再カレント変圧器を提案する。
論文 参考訳(メタデータ) (2024-02-22T18:06:19Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。