論文の概要: Mixture of Layers with Hybrid Attention
- arxiv url: http://arxiv.org/abs/2605.09516v1
- Date: Sun, 10 May 2026 12:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.291532
- Title: Mixture of Layers with Hybrid Attention
- Title(参考訳): ハイブリッドアテンションによる層内混合
- Authors: Ivan Ternovtsii, Yurii Bilak,
- Abstract要約: そこで本研究では,全幅変圧器ブロック(d_model)をK並列細線ブロックに置き換えるMixture of Layers(MoL)を提案する。
本稿では,グローバルコンテキストにおける共有ソフトマックスブロックと,経路付きブロックにおけるGated DeltaNet線形アテンションを組み合わせたハイブリッドアテンションを導入することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard Mixture-of-Experts (MoE) transformers route tokens to expert subnetworks within each layer, but the layer structure itself remains monolithic. We introduce Mixture of Layers (MoL), which replaces full-width transformer blocks (d_model) with K parallel thin blocks at reduced dimensionality (d_thin << d_model), connected via learned down/up projections and composed via top-k block routing. Scaling sparse block routing to many blocks creates an attention coverage problem, as each block sees fewer tokens. We address this by introducing hybrid attention, which pairs one shared softmax block for global context with Gated DeltaNet linear attention in routed blocks.
- Abstract(参考訳): Standard Mixture-of-Experts (MoE) トランスフォーマーはトークンを各レイヤ内のエキスパートサブネットワークにルーティングするが、レイヤ構造自体はモノリシックのままである。
そこで我々は,Mixture of Layers (MoL)を導入し,全幅トランスフォーマーブロック (d_model) とK並列シンブロック (d_thin <<d_model) を縮小次元(d_thin <<d_model)で置き換え,学習したダウン/アッププロジェクションを介して接続し,トップ-kブロックルーティングを介して構成する。
スパースブロックのルーティングを多くのブロックにスケールすると、各ブロックがトークンが少なくなるため、注意カバレッジの問題が発生する。
本稿では,グローバルコンテキストにおける共有ソフトマックスブロックと,経路付きブロックにおけるGated DeltaNet線形アテンションを組み合わせたハイブリッドアテンションを導入することで,この問題に対処する。
関連論文リスト
- Attention Residuals [38.59138244826294]
PreNorm との残余接続は現代の LLM では標準的なものであるが、固定単位重み付きで全ての層出力を蓄積する。
本稿では,アテンション残余(AttnRes)を提案する。
論文 参考訳(メタデータ) (2026-03-16T09:32:21Z) - Hierarchical LoRA MoE for Efficient CTR Model Scaling [56.608809143548946]
HiLoMoEは階層的なLoRA MoEフレームワークで、パラメータ効率のよい全体的なスケーリングを可能にする。
従来のスタックとは異なり、HiLoMoEルートは出力ではなく前のレイヤスコアに基づいており、すべてのレイヤが並列に実行される。
論文 参考訳(メタデータ) (2025-10-12T03:54:11Z) - The Sharpness Disparity Principle in Transformers for Accelerating Language Model Pre-Training [51.84624027213658]
本稿では、各ブロックのシャープネスに合わせてLRを調整する戦略であるブロックワイズ学習率(LR)を提案する。
モデルサイズは0.12Bから2Bの範囲である。
最近提案されたメモリ効率のAdam-miniにBlockwise LRを組み込むことで、2倍のスピードアップと2倍のメモリ節約を実現しています。
論文 参考訳(メタデータ) (2025-02-26T10:06:37Z) - BlockPruner: Fine-grained Pruning for Large Language Models [23.523314522663455]
研究によると、大きな言語モデル(LLM)の特定のレイヤは、かなりの冗長性を持ち、これらのレイヤを刈り取ることは、全体的なパフォーマンスに最小限の影響を与える。
そこで我々は,BlockPrunerと呼ばれる新しい,トレーニング不要な構造化プルーニング手法を提案する。
我々は,BlockPrunerが最先端のベースラインよりも粒度が高く,効率的なプルーニングを実現していることを示す。
論文 参考訳(メタデータ) (2024-06-15T11:03:33Z) - Occlusion-Aware Instance Segmentation via BiLayer Network Architectures [73.45922226843435]
本稿では,2層畳み込みネットワーク(BCNet)を提案する。このネットワークでは,トップ層がオブジェクト(オブオーバ)を検出し,ボトム層が部分的にオブオーバドされたインスタンス(オブオーバド)を推測する。
一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。
論文 参考訳(メタデータ) (2022-08-08T21:39:26Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - Deep Occlusion-Aware Instance Segmentation with Overlapping BiLayers [72.38919601150175]
高オーバーラップオブジェクトをセグメント化するBilayer Convolutional Network (BCNet)を提案する。
BCNetはオクルージョンオブジェクト(Occluder)を検出し、ボトムGCN層は部分的にOccludedインスタンス(Occludee)を推論する
論文 参考訳(メタデータ) (2021-03-23T06:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。