論文の概要: SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion
- arxiv url: http://arxiv.org/abs/2602.11698v1
- Date: Thu, 12 Feb 2026 08:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.716493
- Title: SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion
- Title(参考訳): SpiralFormer: ループトランスフォーマーはマルチリゾリューション再帰を通じて階層的依存関係を学習できる
- Authors: Chengting Yu, Xiaobo Shu, Yadao Wang, Yizhen Zhang, Haoyi Wu, You Wu, Rujiao Long, Ziheng Chen, Yuchi Xu, Wenbo Su, Bo Zheng,
- Abstract要約: SpiralFormerはループトランスフォーマーで、マルチレゾリューション再帰スケジュール下で繰り返し実行される。
モデルスケール160Mから1.4Bのループベースラインと非ループベースラインのどちらよりも,SpralFormerの方がパラメータと計算効率がよいことを示す。
- 参考スコア(独自算出の注目度): 24.26069897783496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recursive (looped) Transformers decouple computational depth from parameter depth by repeatedly applying shared layers, providing an explicit architectural primitive for iterative refinement and latent reasoning. However, early looped Transformers often underperform non-recursive baselines of equal compute. While recent literature has introduced more effective recursion mechanisms to mitigate this gap, existing architectures still operate at a fixed, full-token resolution, neglecting the potential efficiency of computing over compressed latent representations. In this paper, we propose SpiralFormer, a looped Transformer that executes recurrence under a multi-resolution recursion schedule. We provide probing evidence that multi-resolution recursion enables the model to learn hierarchical dependencies by inducing iteration-wise functional specialization across different scales. Empirically, SpiralFormer achieves better parameter and compute efficiency than both looped and non-looped baselines across model scales from 160M to 1.4B, establishing sequence resolution as a potential axis for scaling recursive architectures.
- Abstract(参考訳): Recursive (ループ化) Transformerは、共有層を繰り返し適用することで、パラメータ深さから計算深度を分離し、反復的洗練と潜時推論のための明示的なアーキテクチャプリミティブを提供する。
しかし、初期ループトランスフォーマーはしばしば等値計算の非再帰ベースラインを過小評価する。
近年の文献では、このギャップを軽減するためにより効果的な再帰機構が導入されたが、既存のアーキテクチャは、圧縮された潜在表現よりも計算の潜在的効率を無視して、固定された完全な解像度で運用されている。
本稿では,マルチ解像度再帰スケジュール下で繰り返し実行されるループ変換器であるSpralFormerを提案する。
多分解能再帰により、異なるスケールにわたる反復的機能的特殊化を誘導することにより、モデルが階層的依存関係を学習できることを示す証拠を提供する。
経験的に、SpralFormerは160Mから1.4Bまでのモデルスケールにわたるループベースラインと非ループベースラインよりも優れたパラメータと計算効率を実現し、再帰的アーキテクチャをスケールするための潜在的な軸としてシーケンス解像度を確立する。
関連論文リスト
- PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文 参考訳(メタデータ) (2026-02-11T12:39:41Z) - Looping Back to Move Forward: Recursive Transformers for Efficient and Flexible Large Multimodal Models [63.47909317137073]
大規模マルチモーダルモデル (LMM) は視覚言語計算タスクにおいて顕著な成功を収めた。
しかし、その膨大なパラメータ数は、トレーニングと推論の両方で利用されていないことが多い。
LMMに適した再帰トランスフォーマーアーキテクチャであるRecursiveVLMを提案する。
論文 参考訳(メタデータ) (2026-02-09T17:58:23Z) - Exploring Depth Generalization in Large Language Models for Solving Recursive Logic Tasks [1.0378456753266476]
トランスフォーマーアーキテクチャは、トレーニング中に遭遇するよりも深い再帰を伴う問題に苦しむことを示す。
この制限はスタックのような振舞いを維持することができないことに起因する。
我々は,問題を管理可能なサブコンポーネントに分解するループ式位置交換パイプラインを開発した。
論文 参考訳(メタデータ) (2025-12-02T12:04:51Z) - MeSH: Memory-as-State-Highways for Recursive Transformers [23.995570647573484]
パラメータが少ない再帰モデルは、マッチした計算の下では非再帰的モデルよりも遅れることが多い。
隠れた状態を探索することで、このパフォーマンスギャップを2つの主要なボトルネックにトレースします。
メモリ管理を明示的なメモリバッファに外部化するメモリ・アズ・ステート・ハイウェイ方式を導入する。
論文 参考訳(メタデータ) (2025-10-09T03:23:38Z) - Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [61.67090981767583]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、メモリフットプリントをさらに削減するために、KVペアを最初の再帰から再利用するKV共有変種を提案する。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - To CoT or To Loop? A Formal Comparison Between Chain-of-Thought and Looped Transformers [32.84174396586435]
CoT(Chain-of-Thought)とLooped Transformerは、推論タスクのパフォーマンスを実証的に改善することが示されている。
それぞれの強みと限界を形式的に分析する。
論文 参考訳(メタデータ) (2025-05-25T17:49:37Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Recursive Reinforcement Learning [4.429642479975602]
再帰は、潜在的無限のオブジェクトを有限に記述する基本的なパラダイムである。
我々はマルコフ決定プロセスの集合として記述された環境における最適ポリシーを計算できるRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-23T00:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。