論文の概要: HubRouter: A Pluggable Sub-Quadratic Routing Primitive for Hybrid Sequence Models
- arxiv url: http://arxiv.org/abs/2604.22442v1
- Date: Fri, 24 Apr 2026 10:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.433451
- Title: HubRouter: A Pluggable Sub-Quadratic Routing Primitive for Hybrid Sequence Models
- Title(参考訳): HubRouter:ハイブリッドシーケンスモデルのためのプラガブルサブクアドラティックルーティングプリミティブ
- Authors: Abhinaba Basu,
- Abstract要約: 私たちは、O(n2)アテンション層をO(nM)ハブ経由のルーティングに置き換えるプラグイン可能なモジュールであるHub Codeを紹介します。
我々は、Jambaスタイルのハイブリッドと12層トランスフォーマーの2つのオフスクラッチアーキテクチャでこれを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce HubRouter, a pluggable module that replaces O(n^2) attention layers with O(nM) hub-mediated routing, where M << n is a small number of learned hub tokens. We demonstrate it in two from-scratch architectures: a Jamba-style hybrid and a 12-layer Transformer; retrofit into pretrained models is a tested negative case. HubRouter implements an encode-decode-score-council pipeline: M learned hubs cross-attend to all tokens, tokens project against hubs for routing fingerprints, a score head selects top-k tokens, and a sparse council attends only to the selected subset. We validate HubRouter in three settings. (1) Hub-Jamba yields a nominal 4.2% PPL improvement (200.2 vs 209.0, single seed; possibly within seed noise) and up to ~90x training throughput at sequence length 1024 in matched PyTorch-native baselines; an optimised baseline would narrow this to ~10-15x. (2) Graduated replacement of 25% of Transformer attention layers gives the best perplexity in our matched-budget sweep (268.0 vs 282.4 pure Transformer). (3) Hub-GPT provides strictly causal routing, achieving PPL 211.5 +/- 0.4 over 3 seeds (post council-causal fix); approximately 3 PPL worse than Jamba's 208.5 +/- 0.7, a measurable quality cost for avoiding O(n^2) computation. Post-fix, chunk size C has little effect; the pre-fix chunk-size benefit was an artifact of a bidirectional-council leak we found in adversarial review. A multi-seed hub-count sweep (~105 runs across M=1-32) reveals M=8-14 as the reliably-converging sub-band (4-5/5 seeds); M=6 is rescued to 5/5 by orthogonal regularization, while M>=20 shows increasing seed sensitivity. Companion paper arXiv:2603.20997 (Basu, 2026) defines the routing diagnostic task. Code and scripts will be released.
- Abstract(参考訳): 本稿では,O(n^2) の注意層を O(nM) のハブ経由ルーティングに置き換えるプラグインモジュールである HubRouter を紹介する。
我々は、Jambaスタイルのハイブリッドと12層トランスフォーマーの2つのオフスクラッチアーキテクチャでこれを実証した。
HubRouterは、Encode-decode-score-councilパイプラインを実装している: M learned Hubs cross-attend to all tokens, tokens project against Hubs for routing fingerprints, score head selects top-k tokens, and a sparse Councils only to the selected subset。
私たちはHubRouterを3つの設定で検証します。
1) Hub-Jambaは、名目上の4.2%のPPL改善(200.2対209.0、種子ノイズの範囲内)と、マッチしたPyTorchネイティブベースラインのシーケンス長1024で最大90倍のトレーニングスループットを得る。
2) トランスフォーマー注意層25%の置換は, 一致した予算処理(268.0 対 282.4 純トランスフォーマー)において最も難易度が高い。
(3) Hub-GPT は厳密な因果経路を提供し、PPL 211.5 +/- 0.4 over 3 seed (post council-causal fix) を達成し、約3 PPL は Jamba の 208.5 +/- 0.7 よりも悪く、O(n^2) 計算を避けるための測定可能な品質コストである。
修正後, チャンクサイズCはほとんど効果がなく, 修正前チャンクサイズの利点は, 対向的レビューで見いだされた双方向カウンシルリークのアーチファクトであった。
M=1-32はM=8-14であり,M=6は直交正則化により5/5に回収され,M>=20は種子感受性が上昇した。
Companion paper arXiv:2603.20997 (Basu, 2026) はルーティング診断タスクを定義する。
コードとスクリプトがリリースされる。
関連論文リスト
- Equifinality in Mixture of Experts: Routing Topology Does Not Determine Language Modeling Quality [0.0]
学習したセントロイドに対するコサイン類似性ルーティングを用いたスパース・ミックス・オブ・エクササイズ(MoE)アーキテクチャを構築した。
ルーティングトポロジがパープレキシティ(PPL)を決定できないことが分かりました。
トポロジレベルの等質性と共存するエキスパートレベルと因果制御性について、共用論文で検討する。
論文 参考訳(メタデータ) (2026-04-15T21:02:02Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - AXELRAM: Quantize Once, Never Dequantize [0.0]
AXELRAMは、量子化されたKVキャッシュインデックスから直接注目スコアを算出する。
我々は,根本原因をレイヤーワイド標準に追従し,ハードウェアコストゼロの破滅的なスパイクを排除した勾配のない符号パターン選択(200の候補,8のキャリブレーションサンプル,1回)を提案する。
論文 参考訳(メタデータ) (2026-04-03T02:03:38Z) - When Does Content-Based Routing Work? Representation Requirements for Selective Attention in Hybrid Sequence Models [0.0]
ハイブリッドリカレントアテンションアーキテクチャにおけるルーティングパラドックスを同定する。
コンテンツベースのルーティングは、ルーティングが避けるように設計されたペアワイズな計算を必要とすることを示す。
論文 参考訳(メタデータ) (2026-03-22T01:04:57Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Neighborhood Attention Transformer [24.478343522484604]
本稿では,視覚に対する第1の効率的かつスケーラブルなスライディングウインドウアテンション機構であるNeighborhood Attention(NA)を紹介する。
NAはピクセルワイド操作であり、最寄りの画素に自己注意(SA)を局在させる。
我々はNATTENNeighborhood Attention Extensionを開発し、NAがSwinのWSAよりも40%高速に動作できるようにする。
論文 参考訳(メタデータ) (2022-04-14T17:55:15Z) - What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。
IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文 参考訳(メタデータ) (2021-09-08T21:22:52Z) - 1$\times$N Block Pattern for Network Sparsity [90.43191747596491]
我々は,この制限を破るために,ブロック間隔パターン(ブロックプルーニング)を1時間で定義する新しい概念を提案する。
このパターンはMobileNet-V2の上位1の精度でフィルタプルーニングよりも約3.0%改善されている。
また、重み付けによるCortex-A7 CPUの56.04msの推論も得る。
論文 参考訳(メタデータ) (2021-05-31T05:50:33Z) - Capsules with Inverted Dot-Product Attention Routing [84.89818784286953]
本研究では,親の状況と子どもの投票の一致に基づいて子カプセルを親にルーティングする,カプセルネットワークのための新しいルーティングアルゴリズムを提案する。
提案手法は,CIFAR-10やCIFAR-100などのベンチマークデータセットの性能を向上させる。
私たちの研究は、複雑な現実世界のタスクにカプセルネットワークを適用する可能性を高めていると考えています。
論文 参考訳(メタデータ) (2020-02-12T02:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。