論文の概要: Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning
- arxiv url: http://arxiv.org/abs/2604.21999v2
- Date: Mon, 27 Apr 2026 14:17:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.94804
- Title: Universal Transformers Need Memory: Depth-State Trade-offs in Adaptive Recursive Reasoning
- Title(参考訳): ユニバーサルトランスフォーマーは記憶を必要とする:適応的再帰推論における深い状態のトレードオフ
- Authors: Grigory Sapunov,
- Abstract要約: 本研究では,SudokuExtreme上の単一ブロックユニバーサルトランス (UT) のスクラッチパッドとして学習したメモリトークンについて検討した。
メモリトークンは、テストされたすべての構成で、メモリトークンのない構成は、非自明なパフォーマンスです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study learned memory tokens as computational scratchpad for a single-block Universal Transformer (UT) with Adaptive Computation Time (ACT) on Sudoku-Extreme, a combinatorial reasoning benchmark. We find that memory tokens are empirically necessary: across all configurations tested -- 3 seeds, multiple token counts, two initialization schemes, ACT and fixed-depth processing -- no configuration without memory tokens achieves non-trivial performance. The optimal count exhibits a sharp lower threshold (T=0 always fails, T=4 is borderline, T=8 reliably succeeds for 81-cell puzzles) followed by a stable plateau (T=8-32, 57.4% +/- 0.7% exact-match) and collapse from attention dilution at T=64. During experimentation, we identify a router initialization trap that causes >70% of training runs to fail: both default zero-bias initialization (p ~ 0.5) and Graves' recommended positive bias (p ~ 0.73) cause tokens to halt after ~2 steps at initialization, settling into a shallow equilibrium (halt ~ 5-7) that the model cannot escape. Inverting the bias to -3 ("deep start," p ~ 0.05) eliminates this failure mode. We confirm through ablation that the trap is inherent to ACT initialization, not an artifact of our architecture choices. With reliable training established, we show that (1) ACT provides more consistent results than fixed-depth processing (56.9% +/- 0.7% vs 53.4% +/- 9.3% across 3 seeds); (2) ACT with lambda warmup achieves matching accuracy (57.0% +/- 1.1%) using 34% fewer ponder steps; and (3) attention heads specialize into memory readers, constraint propagators, and integrators across recursive depth. Code is available at https://github.com/che-shr-cat/utm-jax.
- Abstract(参考訳): 組合せ推論ベンチマークであるSudoku-Extreme上で,適応計算時間(ACT)を用いた一ブロックユニバーサルトランス (UT) のスクラッチパッドとして学習したメモリトークンについて検討した。
3つのシード、複数のトークンカウント、2つの初期化スキーム、ACTと固定深度処理など、テストされたすべての構成において、メモリトークンのない構成は、非自明なパフォーマンスを達成する。
最適カウントは、シャープな低い閾値を示す(T=0は常に失敗し、T=4は境界線であり、T=8は81セルパズルで確実に成功する)。
デフォルトのゼロバイアス初期化 (p ~ 0.5) と Graves の推奨正バイアス (p ~ 0.73) の両方が初期化時に ~2 ステップ後にトークンを停止させ、モデルが脱出できない浅い平衡 (halt ~ 5-7) に沈着させる。
バイアスを-3("deep start", p ~ 0.05")に反転すると、この障害モードがなくなる。
我々は、このトラップがACT初期化に固有のものであり、アーキテクチャ選択の成果物ではないことをアブレーションを通じて確認する。
その結果,(1) ACTは固定深度処理(56.9%,/-0.7%,53.4%,/-9.3%),(2) ラムダウォームアップ処理(57.0%,/-1.1%),(3) メモリリーダ,制約プロパゲータ,インテグレータに特化した注意ヘッドを34%減らしてマッチング精度(57.0%,/-1.1%)を実現した。
コードはhttps://github.com/che-shr-cat/utm-jax.comで入手できる。
関連論文リスト
- Less Is More: Cognitive Load and the Single-Prompt Ceiling in LLM Mathematical Reasoning [0.0]
SAIR Equational Theories Stage 1のコンペティションの文脈において,形式的数学的推論のためのプロンプトエンジニアリングについて検討する。
このタスクは、すべてのマグマに対して1つの方程式法則が別の法則を意味するかどうかを決定する必要がある。
5週間にわたって、40以上のプロンプトバリアントを設計、テスト、分析しました。
論文 参考訳(メタデータ) (2026-04-20T22:55:23Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。
過度に考える傾向は、必然的に長い推論連鎖に繋がる。
我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文 参考訳(メタデータ) (2025-05-23T14:17:56Z) - Retrosynthetic Planning with Dual Value Networks [107.97218669277913]
我々は、PDVN(Planning with Dual Value Networks)と呼ばれる新しいオンライントレーニングアルゴリズムを提案する。
PDVNは計画段階と更新段階を交互に行い、分子の合成性とコストを予測する。
広く使われているUSPTOデータセットでは、PDVNアルゴリズムが既存のマルチステッププランナの探索成功率を改善する。
論文 参考訳(メタデータ) (2023-01-31T16:43:53Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。