論文の概要: LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation
- arxiv url: http://arxiv.org/abs/2602.11451v1
- Date: Wed, 11 Feb 2026 23:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.584007
- Title: LoopFormer: Elastic-Depth Looped Transformers for Latent Reasoning via Shortcut Modulation
- Title(参考訳): LoopFormer: ショートカット変調による遅延推論のための弾性深さループ変換器
- Authors: Ahmadreza Jeddi, Marco Ciccone, Babak Taati,
- Abstract要約: 可変長トラジェクタで訓練されたループ変換器であるLoopFormerを導入し、予算条件の推論を可能にする。
私たちのコアコントリビューションは、異なる長さの軌跡を整列するショートカット一貫性トレーニングスキームです。
LoopFormerは、アグレッシブな計算制約下でさえ、言語モデリングと推論ベンチマークで堅牢なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 9.943277041891788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Looped Transformers have emerged as an efficient and powerful class of models for reasoning in the language domain. Recent studies show that these models achieve strong performance on algorithmic and reasoning tasks, suggesting that looped architectures possess an inductive bias toward latent reasoning. However, prior approaches fix the number of loop iterations during training and inference, leaving open the question of whether these models can flexibly adapt their computational depth under variable compute budgets. We introduce LoopFormer, a looped Transformer trained on variable-length trajectories to enable budget-conditioned reasoning. Our core contribution is a shortcut-consistency training scheme that aligns trajectories of different lengths, ensuring that shorter loops yield informative representations while longer loops continue to refine them. LoopFormer conditions each loop on the current time and step size, enabling representations to evolve consistently across trajectories of varying length rather than drifting or stagnating. Empirically, LoopFormer demonstrates robust performance on language modeling and reasoning benchmarks even under aggressive compute constraints, while scaling gracefully with additional budget. These results show that looped Transformers are inherently suited for adaptive language modeling, opening a path toward controllable and budget-aware large language models.
- Abstract(参考訳): Looped Transformerは、言語ドメインの推論のための効率的で強力なモデルのクラスとして登場した。
近年の研究では、これらのモデルがアルゴリズム的および推論的タスクにおいて強い性能を発揮することが示されており、ループ型アーキテクチャは潜在的推論に対する帰納的バイアスを有することが示唆されている。
しかし、事前のアプローチでは、トレーニングと推論中にループの繰り返し回数を補正し、これらのモデルが可変計算予算の下で計算深度を柔軟に適応できるかどうかという疑問を解き放つ。
可変長トラジェクタで訓練されたループ変換器であるLoopFormerを導入し、予算条件の推論を可能にする。
私たちのコアコントリビューションは、異なる長さの軌跡を整列するショートカット一貫性トレーニングスキームです。
LoopFormerは、各ループを現在の時間とステップサイズで条件付けし、ドリフトやステージングではなく、長さの異なるトラジェクトリ間で、表現を一貫して進化させることができる。
LoopFormerは、アグレッシブな計算制約の下でも、言語モデリングと推論ベンチマークの堅牢なパフォーマンスを実証し、さらなる予算で優雅にスケーリングする。
これらの結果から,ループトランスフォーマーは適応型言語モデリングに本質的に適しており,制御可能かつ予算対応の大規模言語モデルへの道を開くことが示唆された。
関連論文リスト
- Weights to Code: Extracting Interpretable Algorithms from the Discrete Transformer [65.38883376379812]
本稿では,連続表現と離散記号論理のギャップを埋めるアーキテクチャである離散変換器を提案する。
実証的には、Discrete TransformerはRNNベースのベースラインに匹敵するパフォーマンスを達成するだけでなく、連続的な変数ドメインへの解釈可能性を大幅に拡張する。
論文 参考訳(メタデータ) (2026-01-09T12:49:41Z) - To CoT or To Loop? A Formal Comparison Between Chain-of-Thought and Looped Transformers [32.84174396586435]
CoT(Chain-of-Thought)とLooped Transformerは、推論タスクのパフォーマンスを実証的に改善することが示されている。
それぞれの強みと限界を形式的に分析する。
論文 参考訳(メタデータ) (2025-05-25T17:49:37Z) - Thinking Slow, Fast: Scaling Inference Compute with Distilled Reasoners [72.37408197157453]
近年の進歩により、大規模言語モデル(LLM)の性能は、テスト時に計算資源をスケーリングすることで大幅に向上することが示されている。
複雑性が低いモデルは、より優れた生成スループットを活用して、固定された計算予算のために同様の大きさのトランスフォーマーを上回りますか?
この問題に対処し、強い四分法的推論器の欠如を克服するために、事前訓練された変換器から純およびハイブリッドのマンバモデルを蒸留する。
論文 参考訳(メタデータ) (2025-02-27T18:08:16Z) - Reasoning with Latent Thoughts: On the Power of Looped Transformers [52.84192961524481]
多くの合成推論問題に対して、$k$層変換器が$L$倍ループしたことが、$kL$層非ループモデルの性能にほぼ一致することを示す。
ループ型および非ループ型モデルは、その有効深さに依存するスケーリングの挙動を示す。
論文 参考訳(メタデータ) (2025-02-24T18:49:05Z) - Enhancing Auto-regressive Chain-of-Thought through Loop-Aligned Reasoning [47.06427150903487]
CoT(Chain-of-Thought)プロンプトは、言語モデルの推論能力を高めるための強力なテクニックとして登場した。
ループ変換器は目覚ましい長さの一般化能力を有するが、その限定的な一般化と適応性により、自己回帰解の代替として機能することができない。
ループ変換器の強度をよりよく活用するためのRELAYを提案する。
論文 参考訳(メタデータ) (2025-02-12T15:17:04Z) - Loop Neural Networks for Parameter Sharing [1.1049608786515839]
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。
提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。
本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
論文 参考訳(メタデータ) (2024-09-21T17:07:42Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。