論文の概要: Simply Stabilizing the Loop via Fully Looped Transformer
- arxiv url: http://arxiv.org/abs/2605.18797v1
- Date: Mon, 11 May 2026 07:21:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.335229
- Title: Simply Stabilizing the Loop via Fully Looped Transformer
- Title(参考訳): 完全ループ変換器によるループの安定化
- Authors: Rao Fu, Zixuan Yang, Jiankun Zhang, Jing Ma, Hechang Chen, Yu Li, Yi Chang,
- Abstract要約: Looped Transformerは、ループイテレーションの数が増えると、トレーニングの不安定性に悩まされる。
実験により、フルループ変換器はトレーニングの安定性を改善し、下流の性能を高め、異なるテスト時間計算予算の下で予備的適応性を提供することを示した。
- 参考スコア(独自算出の注目度): 41.240805541680395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling model performance typically requires increasing model size. Looped Transformer offers a compelling alternative by iteratively reusing the same Transformer blocks, trading additional computation for improved performance without increasing parameter count or context length. Because the number of loop iterations can be adjusted at inference, it also provides a natural mechanism for balancing performance and test-time compute. However, Looped Transformer still suffers from training instability when the number of loop iterations increases. Our analysis reveals that this instability stems from two sources: gradient oscillation and residual explosion. To address these two problems, we propose the Fully Looped Transformer, which introduces two parameter-free modifications: (1) Fully Looped Architecture, which distributes inter-loop signals across all layers to mitigate residual explosion; (2) Attention Injection, which reuses the existing attention block to suppress gradient oscillation. These modifications stabilize training dynamics, enabling the Fully Looped Transformer to be trained stably up to 12 loop iterations, whereas other baseline looped models collapse in this regime. In milder settings where Looped Transformer does not collapse, Fully Looped Transformer still improves average downstream-task performance by up to 13.2\%. Overall, our experiments demonstrate that Fully Looped Transformer improves training stability, enhances downstream performance, and provides preliminary adaptability under different test-time compute budgets by varying loop iterations at inference.
- Abstract(参考訳): モデルパフォーマンスのスケーリングは通常、モデルのサイズを拡大する必要があります。
Looped Transformerは、同じTransformerブロックを反復的に再利用し、パラメータ数やコンテキスト長を増大させることなく、パフォーマンスを改善するための追加計算を交換することで、魅力的な代替手段を提供する。
ループイテレーションの回数は推論で調整できるため、パフォーマンスとテスト時間計算のバランスをとるための自然なメカニズムも提供する。
しかし、ループ反復数が増加すると、Looped Transformerはトレーニングの不安定さに悩まされる。
解析の結果、この不安定性は勾配振動と残留爆発の2つの源に由来することが明らかとなった。
これら2つの問題に対処するため,(1)全層にわたってループ間信号を分散して残差爆発を緩和するフルループ型アーキテクチャ,(2)既存のアテンションブロックを再利用して勾配発振を抑制するアテンションインジェクションの2つのパラメータフリーな修正を提案する。
これらの変更はトレーニングのダイナミクスを安定化させ、フルループトランスフォーマーを安定して最大12ループの繰り返しでトレーニングできるようにする一方で、他のベースラインループモデルはこの体制で崩壊する。
Looped Transformerが崩壊しない軽度な設定では、Fully Looped Transformerは平均ダウンストリームタスクパフォーマンスを最大13.2\%改善している。
実験の結果,フルループ変換器はトレーニングの安定性を向上し,ダウンストリーム性能を向上し,異なるテスト時間計算予算下での予備的適応性を提供する。
関連論文リスト
- Parcae: Scaling Laws For Stable Looped Language Models [35.9547796403241]
従来の固定深度アーキテクチャは、FLOPのトレーニングを増やすことで、通常、より高いメモリフットプリントやデータを犠牲にして、パラメータ化を増やすことで、品質をスケールする。
潜在的に代替となるのがループアーキテクチャであり、ループ内のレイヤブロックを通じてアクティベーションを送信することでFLOPを増大させる。
有望ではあるが、ループ化されたアーキテクチャをトレーニングするための既存のレシピは不安定になり、残余の爆発と損失のスパイクに悩まされる。
本稿では, 負の対角パラメータ化の離散化により, 射出パラメータのスペクトルノルムを制約する新しい安定ループアーキテクチャであるParcaeを提案する。
論文 参考訳(メタデータ) (2026-04-14T16:43:37Z) - Enhancing Auto-regressive Chain-of-Thought through Loop-Aligned Reasoning [47.06427150903487]
CoT(Chain-of-Thought)プロンプトは、言語モデルの推論能力を高めるための強力なテクニックとして登場した。
ループ変換器は目覚ましい長さの一般化能力を有するが、その限定的な一般化と適応性により、自己回帰解の代替として機能することができない。
ループ変換器の強度をよりよく活用するためのRELAYを提案する。
論文 参考訳(メタデータ) (2025-02-12T15:17:04Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。