論文の概要: Learning to Skip the Middle Layers of Transformers
- arxiv url: http://arxiv.org/abs/2506.21103v1
- Date: Thu, 26 Jun 2025 09:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.03142
- Title: Learning to Skip the Middle Layers of Transformers
- Title(参考訳): トランスの中間層をスキップする学習
- Authors: Tim Lawson, Laurence Aitchison,
- Abstract要約: 本研究では,中間層から外方へ可変層をスキップする新しいアーキテクチャを提案する。
特に、学習ゲーティング機構は、入力に基づいて中央ブロックの対称スパンをバイパスするかを決定する。
提案手法は, 層数が少なくて高密度なベースラインに比べて, 検証エントロピーと推定FLOPのトレードオフを改善することはできない。
- 参考スコア(独自算出の注目度): 25.958907308877148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conditional computation is a popular strategy to make Transformers more efficient. Existing methods often target individual modules (e.g., mixture-of-experts layers) or skip layers independently of one another. However, interpretability research has demonstrated that the middle layers of Transformers exhibit greater redundancy, and that early layers aggregate information into token positions. Guided by these insights, we propose a novel architecture that dynamically skips a variable number of layers from the middle outward. In particular, a learned gating mechanism determines whether to bypass a symmetric span of central blocks based on the input, and a gated attention mechanism prevents subsequent tokens from attending to skipped token positions. Residual norms are controlled with a 'sandwich' or 'perilayernorm' scheme and gate sparsity with an adaptive regularization loss. We had aimed to reduce compute requirements for 'simpler' tokens and potentially foster an emergent multi-level representational hierarchy but, at the scales investigated, our approach does not achieve improvements in the trade-off between validation cross-entropy and estimated FLOPs compared to dense baselines with fewer layers. We release our code at https://github.com/tim-lawson/skip-middle.
- Abstract(参考訳): 条件計算は、Transformerをより効率的にするための一般的な戦略である。
既存のメソッドは個々のモジュール(例:Mix-of-experts層)をターゲットにしたり、レイヤを互いに独立してスキップすることが多い。
しかし、解釈可能性の研究はトランスフォーマーの中間層がより冗長性を示し、初期層が情報をトークンの位置に集約することを示した。
これらの知見に導かれて、中央から動的に複数の層をスキップする新しいアーキテクチャを提案する。
特に、学習ゲーティング機構は、入力に基づいて中央ブロックの対称スパンをバイパスするか否かを判断し、ゲートアテンション機構は、後続のトークンがスキップされたトークン位置に参加するのを防ぐ。
残留ノルムは、適応正規化損失を伴う「サンドウィッチ」または「ペリ層ノルム」スキームとゲート間隔で制御される。
我々は、'simpler'トークンの計算要求を減らし、創発的なマルチレベル表現階層を育むことを目的としていた。
コードについてはhttps://github.com/tim-lawson/skip-middle.comで公開しています。
関連論文リスト
- Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T11:41:19Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Rethinking Skip Connection with Layer Normalization in Transformers and
ResNets [49.87919454950763]
スキップ接続は、ディープニューラルネットワークの性能を改善するために広く使われているテクニックである。
本研究では,スキップ接続の有効性におけるスケール要因について検討する。
論文 参考訳(メタデータ) (2021-05-15T11:44:49Z) - Orthogonalizing Convolutional Layers with the Cayley Transform [83.73855414030646]
直交に制約された畳み込み層をパラメータ化するための代替手法を提案し,評価する。
本手法は,大規模畳み込みにおいても直交性が高次に保たれることを示す。
論文 参考訳(メタデータ) (2021-04-14T23:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。