論文の概要: Training-Free Looped Transformers
- arxiv url: http://arxiv.org/abs/2605.23872v1
- Date: Fri, 22 May 2026 17:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.446907
- Title: Training-Free Looped Transformers
- Title(参考訳): 学習不要ループ変換器
- Authors: Lizhang Chen, Jonathan Li, Chen Liang, Ni Lao, Qiang Liu,
- Abstract要約: 本稿では,軽量な推論時ラッパーが凍結チェックポイントの層に連続した中スタックブロックをループする学習自由ループ変換器を提案する。
ループ構造をエンド・ツー・エンドでトレーニングする従来のループ変換手法とは異なり、テスト時に事前訓練されたモデルに再適応する。
- 参考スコア(独自算出の注目度): 18.680234065223683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce training-free looped transformers, in which a lightweight inference-time wrapper loops a contiguous mid-stack block of layers of a frozen checkpoint without additional fine-tuning, continued training, or architectural changes. Unlike prior looped transformer methods that train with the looped structure end-to-end, we retrofit recurrence onto pretrained models at test time. We show that naive block reapplication usually degrades performance, highlighting the importance of the loop application strategy. Motivated by viewing a pre-norm transformer block as a forward Euler step on an ODE, we instead treat looping as a refinement of the same approximation, replacing one large update with smaller damped sub-steps. Across seven dense, sparse MoE, and MLA+MoE model families, our method improves Qwen3-4B-Instruct by +2.64 pp on MMLU-Pro, Qwen3-30B-A3B-Instruct by +1.14 pp on CommonsenseQA, and Moonlight-16B-A3B-Instruct by +1.20 pp on OpenBookQA.
- Abstract(参考訳): 軽量な推論時ラッパーは、追加の微調整、継続的なトレーニング、アーキテクチャの変更なしに、凍結したチェックポイントの層の連続した中スタックブロックをループする。
ループ構造をエンド・ツー・エンドでトレーニングする従来のループ変換手法とは異なり、テスト時に事前訓練されたモデルに再適応する。
単純なブロック再適用は、通常、性能を低下させ、ループアプリケーション戦略の重要性を強調します。
プレノーム変圧器ブロックをODE上の前方オイラーステップとして見ることにより、ループ処理を同じ近似の洗練として扱い、1つの大きな更新を小さな減衰部分ステップに置き換える。
また, MMLU-ProではQwen3-4B-インストラクト, CommonsenseQAではQwen3-30B-A3B-インストラクト, OpenBookQAではMoonlight-16B-A3B-インストラクト, OpenBookQAでは+1.20ppでMoonlight-16B-A3B-インストラクトを改良した。
関連論文リスト
- Sparse Layers are Critical to Scaling Looped Language Models [26.915905657879218]
Looped-MoEモデルは標準ベースラインよりもスケールが良いが、高密度ループモデルはそうではない。
各ループは最終的な出力を生成するのと同じ層で終わるので、ループ境界はより優れた出口点である。
早期出口を持つLooped-MoEモデルは、標準的なトランスフォーマーを大規模に打ち負かすだけでなく、品質の低下を最小限に抑えながら、メモリと推論の大幅な節約を可能にする。
論文 参考訳(メタデータ) (2026-05-09T20:58:18Z) - Ouroboros: Dynamic Weight Generation for Recursive Transformers via Input-Conditioned LoRA Modulation [0.0]
Ouroborosは、コンパクトなコントローラハイパーネットワークを再帰変換ブロックにアタッチするシステムである。
コントローラは現在の隠れ状態を観察し、ステップごとの対角変調ベクトルを生成し、凍ったSVD-d LoRAベースに適用する。
Qwen2.5-3BはPrelude/Recurrent/Codaアーキテクチャに分割され、Ouroborosは修正されていない17層ベースラインのトレーニング損失を43.4%削減した。
完全なシステムでは、9.2Mのトレーニング可能なパラメータ(コントローラ、ゲート、ステップごとのノルム)しか追加されていないが、同等の大きさの静的LORAを1.44ロスで上回っている。
論文 参考訳(メタデータ) (2026-04-02T13:52:32Z) - Enhancing Auto-regressive Chain-of-Thought through Loop-Aligned Reasoning [47.06427150903487]
CoT(Chain-of-Thought)プロンプトは、言語モデルの推論能力を高めるための強力なテクニックとして登場した。
ループ変換器は目覚ましい長さの一般化能力を有するが、その限定的な一般化と適応性により、自己回帰解の代替として機能することができない。
ループ変換器の強度をよりよく活用するためのRELAYを提案する。
論文 参考訳(メタデータ) (2025-02-12T15:17:04Z) - Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。