論文の概要: Hierarchical vs. Flat Iteration in Shared-Weight Transformers
- arxiv url: http://arxiv.org/abs/2604.14442v1
- Date: Wed, 15 Apr 2026 21:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.624393
- Title: Hierarchical vs. Flat Iteration in Shared-Weight Transformers
- Title(参考訳): 共有重み変換器の階層化とフラット化
- Authors: Sang-Il Han,
- Abstract要約: 本稿では,トランスフォーマーに基づく言語モデルにおいて,階層的に構造化された共有重み付け繰り返しが独立層積み重ねの表現的品質に合致するか否かを実証研究する。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an empirical study of whether hierarchically structured, shared-weight recurrence can match the representational quality of independent-layer stacking in a Transformer-based language model. HRM-LM replaces L independent Transformer layers with a two-speed recurrent pair: a Fast module operating at every step for local refinement, and a Slow module operating every T steps for global compression. This recurrent hierarchy is unrolled for M = N x T steps with shared parameters. The central and most robust finding, supported by a parameter-matched Universal Transformer ablation (UniTF, 1.2B) across five independent runs, is a sharp empirical gap between the two approaches.
- Abstract(参考訳): 本稿では,トランスフォーマーに基づく言語モデルにおいて,階層的に構造化された共有重み付け繰り返しが独立層積み重ねの表現的品質に合致するか否かを実証研究する。
HRM-LMは、L独立トランスフォーマー層を2速リカレントペアに置き換える: ローカルリファインメントのために各ステップで動作する高速モジュール、グローバル圧縮のために全Tステップで動作するスローモジュール。
この再帰的階層は、共有パラメータを持つ M = N x T ステップに対してアンロールされる。
パラメータマッチングされたユニバーサルトランスフォーマーアブレーション (UniTF, 1.2B) が5つの独立したランをまたいだ中心的かつ最も頑健な発見は、2つのアプローチ間の鋭い経験的ギャップである。
関連論文リスト
- Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs [84.3271821505699]
カオス・オブ・モダリティ(Chain of Modality, CoM)は、マルチモーダル融合を受動的結合から動的オーケストレーションに移行するエージェントフレームワークである。
CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
論文 参考訳(メタデータ) (2026-04-16T01:21:14Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。