論文の概要: Adaptive Loops and Memory in Transformers: Think Harder or Know More?
- arxiv url: http://arxiv.org/abs/2603.08391v2
- Date: Tue, 10 Mar 2026 07:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.124118
- Title: Adaptive Loops and Memory in Transformers: Think Harder or Know More?
- Title(参考訳): トランスフォーマーにおける適応ループとメモリ: より難しいか、もっと知っているか?
- Authors: Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali,
- Abstract要約: 思考の連鎖は言語モデルにおける推論を可能にするが、中間段階の明示的な言語化を必要とする。
ループ変換器は、隠された状態内の表現を反復的に精製する代替手段を提供する。
適応型層間ループとゲート型メモリバンクの両方を特徴とするトランスモデルについて検討する。
- 参考スコア(独自算出の注目度): 2.2694459418593698
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Chain-of-thought (CoT) prompting enables reasoning in language models but requires explicit verbalization of intermediate steps. Looped transformers offer an alternative by iteratively refining representations within hidden states. This parameter efficiency comes at a cost, as looped models lack the storage capacity of deeper models which use unique weights per layer. In this work, we investigate transformer models that feature both adaptive per-layer looping, where each transformer block learns to iterate its hidden state via a learned halting mechanism, and gated memory banks, that provide additional learned storage. We find that looping primarily benefits mathematical reasoning, while memory banks help recover performance on commonsense tasks compared to parameter and FLOP matched models. Combining both mechanisms yields a model that outperforms an iso-FLOP baseline, with three times the number of layers, across math benchmarks. Analysis of model internals reveals layer specialization: early layers learn to loop minimally and access memory sparingly, while later layers do both more heavily.
- Abstract(参考訳): CoT(Chain-of- Thought)は言語モデルにおける推論を可能にするが、中間ステップの明示的な言語化を必要とする。
ループ変換器は、隠された状態内の表現を反復的に精製する代替手段を提供する。
このパラメータ効率は、ループモデルには層ごとにユニークな重みを持つより深いモデルのストレージ容量が欠けているため、コストがかかる。
本研究では,各変圧器ブロックが学習停止機構を介して隠れ状態の繰り返しを学習する,適応的な層間ループを特徴とする変圧器モデルと,追加の学習記憶を提供するゲートメモリバンクについて検討する。
メモリバンクはパラメータとFLOPマッチングモデルと比較してコモンセンスタスクのパフォーマンスを回復するのに役立ちます。
両方のメカニズムを組み合わせることで、計算ベンチマークの3倍のレイヤ数で、Iso-FLOPベースラインを上回ったモデルが得られる。
モデル内部の分析では、レイヤの特殊化が明らかになっている: 初期のレイヤは、最小限のループを学習し、メモリをスパース的にアクセスする。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - Echo State Transformer: Attention Over Finite Memories [2.118933003468525]
本稿では,逐次データ処理の課題をエレガントに解決するハイブリッドアーキテクチャであるEcho State Transformers(EST)を紹介する。
ESTはTransformerのアテンションメカニズムとReservoir Computingの原則を統合し、固定サイズのウィンドウ分散メモリシステムを作成する。
ESTは5つのカテゴリのうち2つで総合的にランク付けし、分類と異常検出タスクにおける最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-25T09:56:25Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers [43.39466934693055]
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。
これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。
提案手法の有効性を示すため,様々なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-11-20T02:41:53Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。