Fugu-MT 論文翻訳(概要): Hierarchical vs. Flat Iteration in Shared-Weight Transformers

論文の概要: Hierarchical vs. Flat Iteration in Shared-Weight Transformers

arxiv url: http://arxiv.org/abs/2604.14442v1
Date: Wed, 15 Apr 2026 21:34:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 21:29:31.624393
Title: Hierarchical vs. Flat Iteration in Shared-Weight Transformers
Title（参考訳）: 共有重み変換器の階層化とフラット化
Authors: Sang-Il Han,
Abstract要約: 本稿では,トランスフォーマーに基づく言語モデルにおいて,階層的に構造化された共有重み付け繰り返しが独立層積み重ねの表現的品質に合致するか否かを実証研究する。
参考スコア（独自算出の注目度）: 0.5076419064097734
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present an empirical study of whether hierarchically structured, shared-weight recurrence can match the representational quality of independent-layer stacking in a Transformer-based language model. HRM-LM replaces L independent Transformer layers with a two-speed recurrent pair: a Fast module operating at every step for local refinement, and a Slow module operating every T steps for global compression. This recurrent hierarchy is unrolled for M = N x T steps with shared parameters. The central and most robust finding, supported by a parameter-matched Universal Transformer ablation (UniTF, 1.2B) across five independent runs, is a sharp empirical gap between the two approaches.
Abstract（参考訳）: 本稿では,トランスフォーマーに基づく言語モデルにおいて,階層的に構造化された共有重み付け繰り返しが独立層積み重ねの表現的品質に合致するか否かを実証研究する。 HRM-LMは、L独立トランスフォーマー層を2速リカレントペアに置き換える: ローカルリファインメントのために各ステップで動作する高速モジュール、グローバル圧縮のために全Tステップで動作するスローモジュール。この再帰的階層は、共有パラメータを持つ M = N x T ステップに対してアンロールされる。パラメータマッチングされたユニバーサルトランスフォーマーアブレーション (UniTF, 1.2B) が5つの独立したランをまたいだ中心的かつ最も頑健な発見は、2つのアプローチ間の鋭い経験的ギャップである。

論文の概要: Hierarchical vs. Flat Iteration in Shared-Weight Transformers

関連論文リスト