論文の概要: Solve the Loop: Attractor Models for Language and Reasoning
- arxiv url: http://arxiv.org/abs/2605.12466v1
- Date: Tue, 12 May 2026 17:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.069196
- Title: Solve the Loop: Attractor Models for Language and Reasoning
- Title(参考訳): ループの解決:言語と推論のためのトラクターモデル
- Authors: Jacob Fein-Ashley, Paria Rashidinejad,
- Abstract要約: Looped Transformerは、純粋にフィードフォワード計算に代わる有望な代替手段を提供する。
本稿では、まず、バックボーンモジュールが出力の埋め込みを提案し、次にアトラクターモジュールが固定点を解くことでそれらを洗練するAttractor Modelsを紹介する。
本研究では,Attractor Modelsが,大規模言語モデル事前学習と推論という2つのレシエーションにおいて,既存モデルよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 4.8720589853137435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Looped Transformers offer a promising alternative to purely feed-forward computation by iteratively refining latent representations, improving language modeling and reasoning. Yet recurrent architectures remain unstable to train, costly to optimize and deploy, and constrained to small, fixed recurrence depths. We introduce Attractor Models, in which a backbone module first proposes output embeddings, then an attractor module refines them by solving for the fixed point, with gradients obtained through implicit differentiation. Thus, training memory remains constant in effective depth, and iterations are chosen adaptively by convergence. Empirically, Attractor Models outperform existing models across two regimes, large-scale language-model pretraining and reasoning with tiny models. In language modeling, Attractor Models deliver a Pareto improvement over standard Transformers and stable looped models across sizes, improving perplexity by up to 46.6% and downstream accuracy by up to 19.7% while reducing training cost. Notably, a 770M Attractor Model outperforms a 1.3B Transformer trained on twice as many tokens. On challenging reasoning tasks, we show that our model with only 27M parameters and approximately 1000 examples achieves 91.4% accuracy on Sudoku-Extreme and 93.1% on Maze-Hard, scaling favorably where frontier models like Claude and GPT o3, fail completely, and specialized recursive reasoners collapse at larger sizes. Lastly, we show that Attractor Models exhibit a novel phenomenon, which we call equilibrium internalization: fixed-point training places the model's initial output embedding near equilibrium, allowing the solver to be removed at inference time with little degradation. Together, these results suggest that Attractor Models make iterative refinement scalable by turning recurrence into a computation the model can learn to internalize.
- Abstract(参考訳): Looped Transformerは、遅延表現を反復的に精製し、言語モデリングと推論を改善することによって、純粋にフィードフォワード計算に代わる有望な代替手段を提供する。
しかし、リカレントアーキテクチャはトレーニングが不安定で、最適化とデプロイにコストがかかり、小さな、固定されたリカレンス深さに制約される。
本稿では、まず、バックボーンモジュールが出力埋め込みを提案し、次にアトラクタモジュールが固定点の解法によってそれらを洗練し、その勾配は暗黙の微分によって得られる。
このように、トレーニングメモリは効果的な深さで一定であり、反復は収束によって適応的に選択される。
経験的に、Attractor Modelsは2つのレシエーション、大規模言語モデルの事前訓練、そして小さなモデルによる推論において、既存のモデルよりも優れています。
言語モデリングでは、Attractor Modelsは標準のトランスフォーマーと安定したループモデルよりもパレートを改善し、パープレキシティを最大46.6%改善し、下流の精度を最大19.7%改善し、トレーニングコストを削減した。
770Mのトラクターモデルでは、トークン数の2倍で訓練された1.3Bトランスフォーマーよりも優れていた。
挑戦的推論タスクでは,2700万のパラメータと約1000のサンプルしか持たないモデルでは,Sudoku-Extremeで91.4%,Maze-Hardで93.1%,ClaudeやGPT o3といったフロンティアモデルが完全に故障した場合にはスケールが良好で,特別な再帰的推論器がより大きなサイズで崩壊することを示す。
最後に、アトラクタモデルが平衡内部化と呼ばれる新しい現象を示すことを示す: 固定点トレーニングはモデルの初期出力を平衡付近に埋め込む。
これらの結果は,モデルが内部化を学べる計算に再帰性を変換することで,反復的洗練をスケーラブルにすることを示唆している。
関連論文リスト
- CAST: Continuous and Differentiable Semi-Structured Sparsity-Aware Training for Large Language Models [27.682531424487564]
スパシティアウェアトレーニングは、大きな言語モデルをハードウェアフレンドリーなスパースパターンに変換するための効果的なアプローチである。
スパースモデルのための連続的かつ微分可能なスパース対応トレーニングフレームワークであるContinuous Adaptive Sparse Trainer (CAST)を提案する。
以上の結果から,従来の最先端手法に比べて,トレーニングリソースの最小化による難易度とゼロショット精度の両面で有意な改善が見られた。
論文 参考訳(メタデータ) (2025-09-30T09:28:47Z) - Scaling Inference-Efficient Language Models [3.271571137474847]
モデルアーキテクチャは推論レイテンシに影響を与えており、同じサイズのモデルでは最大3.5倍のレイテンシの差が生じる可能性がある。
我々は、モデルパラメータ数、トレーニングトークンの数、モデルアーキテクチャを共最適化するために、Chinchillaスケーリングの法則を変更します。
下流タスクの精度を維持しつつ、推論遅延を1.8倍改善するMorph-1Bモデルをリリースする。
論文 参考訳(メタデータ) (2025-01-30T03:16:44Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Fisher Mask Nodes for Language Model Merging [0.0]
本稿では,トランスフォーマーの新たなモデルマージ手法について紹介し,フィッシャー重み付けにおける過去の研究成果とモデルプルーニングにおけるフィッシャー情報の利用について考察する。
提案手法は,BERTファミリーの各種モデルに対して,正規かつ顕著な性能向上を示し,計算コストのごく一部において,大規模フィッシャー重み付き平均値よりも優れていた。
論文 参考訳(メタデータ) (2024-03-14T21:52:26Z) - PELA: Learning Parameter-Efficient Models with Low-Rank Approximation [16.9278983497498]
そこで本研究では,中間学習段階を導入することにより,事前学習モデルのパラメータ効率を向上させる手法を提案する。
これにより、下流の微調整タスクにローランクモデルの直接的かつ効率的な利用が可能になる。
論文 参考訳(メタデータ) (2023-10-16T07:17:33Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。