論文の概要: MeSH: Memory-as-State-Highways for Recursive Transformers
- arxiv url: http://arxiv.org/abs/2510.07739v1
- Date: Thu, 09 Oct 2025 03:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.8422
- Title: MeSH: Memory-as-State-Highways for Recursive Transformers
- Title(参考訳): MeSH: 再帰変換のためのメモリ・アズ・ステート・ハイウェイ
- Authors: Chengting Yu, Xiaobo Shu, Yadao Wang, Yizhen Zhang, Haoyi Wu, Jiaang Li, Rujiao Long, Ziheng Chen, Yuchi Xu, Wenbo Su, Bo Zheng,
- Abstract要約: パラメータが少ない再帰モデルは、マッチした計算の下では非再帰的モデルよりも遅れることが多い。
隠れた状態を探索することで、このパフォーマンスギャップを2つの主要なボトルネックにトレースします。
メモリ管理を明示的なメモリバッファに外部化するメモリ・アズ・ステート・ハイウェイ方式を導入する。
- 参考スコア(独自算出の注目度): 23.995570647573484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recursive transformers reuse parameters and iterate over hidden states multiple times, decoupling compute depth from parameter depth. However, under matched compute, recursive models with fewer parameters often lag behind non-recursive counterparts. By probing hidden states, we trace this performance gap to two primary bottlenecks: undifferentiated computation, where the core is forced to adopt a similar computational pattern at every iteration, and information overload, where long-lived and transient information must coexist in a single hidden state. To address the issues, we introduce a Memory-as-State-Highways (MeSH) scheme, which externalizes state management into an explicit memory buffer and employs lightweight routers to dynamically diversify computation across iterations. Probing visualizations confirm that MeSH successfully resolves the pathologies by inducing functional specialization across iterations. On the Pythia suite (160M-1.4B), MeSH-enhanced recursive transformers consistently improve over recursive baselines and outperforms its larger non-recursive counterpart at the 1.4B scale, improving average downstream accuracy by +1.06% with 33% fewer non-embedding parameters. Our analysis establishes MeSH as a scalable and principled architecture for building stronger recursive models.
- Abstract(参考訳): 再帰変換器はパラメータを再利用し、隠れた状態を何度も繰り返し、パラメータの深さから計算深度を分離する。
しかし、一致した計算の下では、パラメータが少なく再帰的でないモデルはしばしば再帰的でないモデルに遅れる。
隠れ状態の探索により、このパフォーマンスギャップを2つの主要なボトルネックにトレースする: 未分化の計算、コアが各イテレーションで同様の計算パターンを採用することを余儀なくされる、情報過負荷、長寿命かつ過渡的な情報が単一の隠れ状態に共存しなければならない。
本稿では,メモリ管理を明示的なメモリバッファに外部化するメモリ・アズ・ステート・ハイウェイ(MeSH)方式を提案する。
視覚化により、MeSHはイテレーション間で機能的な特殊化を誘導することで、その病態をうまく解決する。
Pythia Suite (160M-1.4B)では、MeSHで強化された再帰変換器は、再帰ベースラインよりも一貫して改善され、1.4Bスケールでより大きな非再帰変換器よりも優れ、平均ダウンストリーム精度が+1.06%向上し、非埋め込みパラメータが33%減少する。
我々の分析は、より強力な再帰モデルを構築するためのスケーラブルで原則化されたアーキテクチャとしてMeSHを確立します。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion [24.26069897783496]
SpiralFormerはループトランスフォーマーで、マルチレゾリューション再帰スケジュール下で繰り返し実行される。
モデルスケール160Mから1.4Bのループベースラインと非ループベースラインのどちらよりも,SpralFormerの方がパラメータと計算効率がよいことを示す。
論文 参考訳(メタデータ) (2026-02-12T08:23:21Z) - TS-Memory: Plug-and-Play Memory for Time Series Foundation Models [63.21390142212087]
Time Series Foundation Models (TSFM) は大規模な事前訓練を通じて強力なゼロショット予測を実現する。
パラメトリック適応は破滅的な忘れを招き、非パラメトリック検索は予測を改善するが、データストア検索によってレイテンシが高くなる。
本稿では, TSFM を拡張した軽量メモリアダプタ TS-Memory としてParametric Memory Distillation を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-12T04:16:19Z) - Looping Back to Move Forward: Recursive Transformers for Efficient and Flexible Large Multimodal Models [63.47909317137073]
大規模マルチモーダルモデル (LMM) は視覚言語計算タスクにおいて顕著な成功を収めた。
しかし、その膨大なパラメータ数は、トレーニングと推論の両方で利用されていないことが多い。
LMMに適した再帰トランスフォーマーアーキテクチャであるRecursiveVLMを提案する。
論文 参考訳(メタデータ) (2026-02-09T17:58:23Z) - Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [50.001816497407475]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、KVペアを最初の再帰から再利用するKV共有変種を提案し、特にプリフィルレイテンシとメモリフットプリントの削減を図っている。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking [51.154226183713405]
本稿では,レイヤ計算を暗黙の思考ステップとして再定義する内的思考変換器を提案する。
ITTは162Mパラメータのみを使用して466Mトランスフォーマーの96.5%のパフォーマンスを達成し、トレーニングデータを43.2%削減し、11のベンチマークでTransformer/Loopの変種を上回るパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-02-19T16:02:23Z) - Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。
PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。
提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - Sliced Recursive Transformer [23.899076070924153]
視覚変換器における再帰操作は、追加パラメータを伴わずにパラメータ利用を改善することができる。
我々のモデル Sliced Recursive Transformer (SReT) は、効率的な視覚変換のための様々な設計と互換性がある。
論文 参考訳(メタデータ) (2021-11-09T17:59:14Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。