論文の概要: MeSH: Memory-as-State-Highways for Recursive Transformers
- arxiv url: http://arxiv.org/abs/2510.07739v1
- Date: Thu, 09 Oct 2025 03:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.8422
- Title: MeSH: Memory-as-State-Highways for Recursive Transformers
- Title(参考訳): MeSH: 再帰変換のためのメモリ・アズ・ステート・ハイウェイ
- Authors: Chengting Yu, Xiaobo Shu, Yadao Wang, Yizhen Zhang, Haoyi Wu, Jiaang Li, Rujiao Long, Ziheng Chen, Yuchi Xu, Wenbo Su, Bo Zheng,
- Abstract要約: パラメータが少ない再帰モデルは、マッチした計算の下では非再帰的モデルよりも遅れることが多い。
隠れた状態を探索することで、このパフォーマンスギャップを2つの主要なボトルネックにトレースします。
メモリ管理を明示的なメモリバッファに外部化するメモリ・アズ・ステート・ハイウェイ方式を導入する。
- 参考スコア(独自算出の注目度): 23.995570647573484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recursive transformers reuse parameters and iterate over hidden states multiple times, decoupling compute depth from parameter depth. However, under matched compute, recursive models with fewer parameters often lag behind non-recursive counterparts. By probing hidden states, we trace this performance gap to two primary bottlenecks: undifferentiated computation, where the core is forced to adopt a similar computational pattern at every iteration, and information overload, where long-lived and transient information must coexist in a single hidden state. To address the issues, we introduce a Memory-as-State-Highways (MeSH) scheme, which externalizes state management into an explicit memory buffer and employs lightweight routers to dynamically diversify computation across iterations. Probing visualizations confirm that MeSH successfully resolves the pathologies by inducing functional specialization across iterations. On the Pythia suite (160M-1.4B), MeSH-enhanced recursive transformers consistently improve over recursive baselines and outperforms its larger non-recursive counterpart at the 1.4B scale, improving average downstream accuracy by +1.06% with 33% fewer non-embedding parameters. Our analysis establishes MeSH as a scalable and principled architecture for building stronger recursive models.
- Abstract(参考訳): 再帰変換器はパラメータを再利用し、隠れた状態を何度も繰り返し、パラメータの深さから計算深度を分離する。
しかし、一致した計算の下では、パラメータが少なく再帰的でないモデルはしばしば再帰的でないモデルに遅れる。
隠れ状態の探索により、このパフォーマンスギャップを2つの主要なボトルネックにトレースする: 未分化の計算、コアが各イテレーションで同様の計算パターンを採用することを余儀なくされる、情報過負荷、長寿命かつ過渡的な情報が単一の隠れ状態に共存しなければならない。
本稿では,メモリ管理を明示的なメモリバッファに外部化するメモリ・アズ・ステート・ハイウェイ(MeSH)方式を提案する。
視覚化により、MeSHはイテレーション間で機能的な特殊化を誘導することで、その病態をうまく解決する。
Pythia Suite (160M-1.4B)では、MeSHで強化された再帰変換器は、再帰ベースラインよりも一貫して改善され、1.4Bスケールでより大きな非再帰変換器よりも優れ、平均ダウンストリーム精度が+1.06%向上し、非埋め込みパラメータが33%減少する。
我々の分析は、より強力な再帰モデルを構築するためのスケーラブルで原則化されたアーキテクチャとしてMeSHを確立します。
関連論文リスト
- Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation [50.001816497407475]
本研究では,Mixture-of-Recursions (MoR)を導入した。
MoRはパラメータ効率を達成するために再帰ステップをまたいだ共有レイヤのスタックを再利用し、軽量ルータは適応トークンレベルの思考を可能にする。
また、KVペアを最初の再帰から再利用するKV共有変種を提案し、特にプリフィルレイテンシとメモリフットプリントの削減を図っている。
論文 参考訳(メタデータ) (2025-07-14T17:49:00Z) - Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking [51.154226183713405]
本稿では,レイヤ計算を暗黙の思考ステップとして再定義する内的思考変換器を提案する。
ITTは162Mパラメータのみを使用して466Mトランスフォーマーの96.5%のパフォーマンスを達成し、トレーニングデータを43.2%削減し、11のベンチマークでTransformer/Loopの変種を上回るパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-02-19T16:02:23Z) - Relaxed Recursive Transformers: Effective Parameter Sharing with Layer-wise LoRA [38.30350849992281]
再帰的(recursive)"言語モデルは、パフォーマンスの損失を最小限に抑えたレイヤ間でパラメータを共有する。
Recursive Transformerは、標準的な事前トレーニングされたトランスフォーマーから効率よく利用できるが、単一のユニークなレイヤブロックしか使用せず、ループ内で何度も繰り返される。
我々のモデルは、類似サイズのバニラ事前学習モデルと知識蒸留ベースラインの両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-28T02:15:45Z) - Asynchronous Stochastic Gradient Descent with Decoupled Backpropagation and Layer-Wise Updates [1.9241821314180372]
非同期勾配降下法(ASGD)は訓練速度を改善することができるが、通信とスループットの差により遅延に敏感である。
PD-ASGDは、フォワードとバックのパスに別々のスレッドを使用し、更新を分離し、フォワードとバックのスレッドの比率を高くする。
提案手法では,遅延が存在する場合,同期データ並列処理よりも5.95タイム以上高速に動作しながら,最先端の処理結果に近い結果が得られる。
論文 参考訳(メタデータ) (2024-10-08T12:32:36Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - ROME: Robustifying Memory-Efficient NAS via Topology Disentanglement and
Gradient Accumulation [106.04777600352743]
微分可能なアーキテクチャサーチ(DARTS)は、スーパーネット全体がメモリに格納されているため、メモリコストが大幅に低下する。
シングルパスのDARTSが登場し、各ステップでシングルパスのサブモデルのみを選択する。
メモリフレンドリーだが、計算コストも低い。
RObustifying Memory-Efficient NAS (ROME) と呼ばれる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-23T06:34:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。