論文の概要: Associative-State Universal Transformers: Sparse Retrieval Meets Structured Recurrence
- arxiv url: http://arxiv.org/abs/2604.25930v1
- Date: Wed, 01 Apr 2026 22:30:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.228717
- Title: Associative-State Universal Transformers: Sparse Retrieval Meets Structured Recurrence
- Title(参考訳): アソシアティブ・ステート・ユニバーサル・トランスフォーマー:スパース検索は構造的再帰と出会う
- Authors: Liu Xiao,
- Abstract要約: 構造化されたリカレント状態が、言語モデリングのためのコンパクトな連想バックボーンとして機能するかを検討する。
我々はUniMatrixを紹介した。UniMatrixはUniversal Transformerスタイルのファミリーで、深さにわたって共有された再帰ブロックを再利用する。
我々はこれらのモデルを,バイトレベルのWikiText-2とApple MPSで評価する。
- 参考スコア(独自算出の注目度): 0.7364191922317778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study whether a structured recurrent state can serve as a compact associative backbone for language modeling while still supporting exact retrieval. We introduce UniMatrix, a Universal Transformer style family that reuses a shared recurrent block across depth and augments it with hybrid state updates, a ROSA-style residual path, and token-conditioned embedding modulation. We evaluate these models on byte-level WikiText-2, synthetic associative recall, throughput profiling on Apple MPS, and a corrected benchmark for triple-token interactions. At small scale, UniMatrix-Core and UniMatrix-ROSA slightly outperform a parameter-matched Transformer on WikiText-2 while using many fewer parameters, reaching 5.084 and 5.083 bits-per-byte versus 5.124. The main negative result is equally important: on associative recall, the original UniMatrix family remains near chance while the Transformer reaches 25.4 percent, showing that compressed recurrent state alone is not enough for exact lookup. A retrieval-oriented follow-up, UniMatrix-Assoc, helps only marginally. By contrast, UniMatrix-SparsePointer, which adds sparse slot routing and direct pointer-logit fusion, reaches 75.6 percent on the original pilot recipe and 99.2 percent on a no-dropout follow-up while using 53.8 percent fewer parameters than the Transformer baseline. Ablations show that the gain comes from sufficient slot capacity and exact pointer-level output routing. Overall, structured recurrent state is promising and parameter-efficient, but strong long-range behavior still requires explicit sparse retrieval and better kernels.
- Abstract(参考訳): 構造化されたリカレント状態が、正確な検索をサポートしながら、言語モデリングのためのコンパクトな連想バックボーンとして機能するかどうかを検討する。
UniMatrixはUniversal Transformerスタイルのファミリで、深さをまたいだ共有リカレントブロックを再利用し、それをハイブリッド状態更新、ROSAスタイルの残留パス、トークン条件の埋め込み変調で拡張する。
我々は、これらのモデルを、バイトレベルのWikiText-2、合成連想リコール、Apple MPSのスループットプロファイリング、トリプルトケンインタラクションの補正ベンチマークで評価する。
小型では、UniMatrix-CoreとUniMatrix-ROSAはWikiText-2でパラメータマッチングトランスフォーマーをわずかに上回り、多くの少ないパラメータを使用し、バイト当たり5.084ビットと5.083ビットに到達した。
連想的リコールにおいて、元のUniMatrixファミリーは、トランスフォーマーが25.4%に達する間、ほぼチャンスに近づき、圧縮されたリカレントステートだけでは正確なルックアップには不十分であることを示す。
検索指向のフォローアップであるUniMatrix-Assocは、わずかしか役に立たない。
対照的に、スパーススロットルーティングとダイレクトポインター-ロジット融合を追加したUniMatrix-SparsePointerは、オリジナルのパイロットレシピで75.6%、非ドロップアウトフォローアップで99.2%に達し、Transformerベースラインよりも53.8%少ないパラメータを使用している。
アブレーションは、十分なスロット容量と正確なポインタレベルの出力ルーティングから得られる利得を示している。
全体として、構造化されたリカレント状態は有望でパラメータ効率が高いが、強い長距離動作は依然として明示的なスパース検索とより良いカーネルを必要とする。
関連論文リスト
- Graph Memory Transformer (GMT) [0.0]
Graph Memory Transformer (GMT)は、学習された有向遷移行列で接続されたセントロイドのバンク上にトークン表現をルーティングする。
ベースv7モデルは安定してトレーニングし、セントロイドの使用、遷移構造、ソース・ツー・ターゲット運動を公開する。
結果は最先端のクレームではなく、グラフ経由のメモリナビゲーションで高密度なイントラトーケン変換を置き換えることの可視性と構造的解釈性をサポートする。
論文 参考訳(メタデータ) (2026-04-26T20:09:25Z) - Breaking the KV Cache Bottleneck: Fan Duality Model Achieves O(1) Decode Memory with Superior Associative Recall [0.0]
Fan Duality Modelは、シーケンスモデリングにおけるメモリ効率と連想リコールの間の緊張を解消する。
FDMはシーケンス処理を、長距離パターンを隠蔽状態に圧縮する波動成分と、特定のトークンを取得する粒子成分の2つのコンポーネントに分割する。
本稿では,再帰的なスキャンを凍結し,キャッシュを埋め込みと共に最適化する2段階のトレーニング戦略であるFreeze-Scanを提案する。
論文 参考訳(メタデータ) (2026-04-09T02:00:30Z) - Improving Recursive Transformers with Mixture of LoRAs [2.672804414228544]
共有フィードフォワードネットワーク(FFN)内にLoRA(Lo-Rank Adaptation)の専門家を挿入するLoRA(MoL)の混合
MoLは、バックボーンパラメータをアンタイズすることなく共有FFNのトークン条件の重み空間変調を可能にする。
ModernALBERTは、コンパクトモデル間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-14T23:39:30Z) - CellARC: Measuring Intelligence with Cellular Automata [0.0]
CellARCは1次元セルオートマトンから構築された抽象化と推論のための総合ベンチマークである。
各エピソードは5つのサポートペアを持ち、1つのクエリは256個のマルチカラートークンでシリアライズされる。
95kトレーニングエピソードと2つの1kテストスプリット(補間/外挿)をリリースする。
論文 参考訳(メタデータ) (2025-11-11T07:05:39Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - nnFormer: Interleaved Transformer for Volumetric Segmentation [50.10441845967601]
本稿では,自己意図と畳み込みを実証的に組み合わせた,インターリーブアーキテクチャを備えた強力なセグメンテーションモデルであるnnFormerを紹介する。
nnFormerは、SynapseとACDCの2つの一般的なデータセットで、以前のTransformerベースのメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-09-07T17:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。