論文の概要: When Does Content-Based Routing Work? Representation Requirements for Selective Attention in Hybrid Sequence Models
- arxiv url: http://arxiv.org/abs/2603.20997v1
- Date: Sun, 22 Mar 2026 01:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.189224
- Title: When Does Content-Based Routing Work? Representation Requirements for Selective Attention in Hybrid Sequence Models
- Title(参考訳): コンテンツベースルーティングはいつ機能するのか : ハイブリッドシーケンスモデルにおける選択的アテンションの表現要件
- Authors: Abhinaba Basu,
- Abstract要約: ハイブリッドリカレントアテンションアーキテクチャにおけるルーティングパラドックスを同定する。
コンテンツベースのルーティングは、ルーティングが避けるように設計されたペアワイズな計算を必要とすることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We identify a routing paradox in hybrid recurrent-attention architectures: content-based routing - deciding which tokens deserve expensive attention - requires exactly the pairwise computation that routing is designed to avoid. Through 20+ controlled experiments across three tasks (a synthetic diagnostic, the Zoology MQAR benchmark, and HotpotQA), we map the routing landscape exhaustively. One layer of softmax attention creates a latent ~34-dimensional subspace enabling 98.4% routing precision; zero layers yield 1.2%. This subspace is invisible to cosine similarity, destroyed by random projections (98.4% to 2.6%), and cannot be created by contrastive pretraining - proving attention's role is writing pairwise match results into representations, not merely computing them. Twelve alternative mechanisms all cluster at 15-29%. Non-learned indices (Bloom filter: 90.9%; BM25 on HotpotQA: 82.7%) bypass the bottleneck entirely. The result is a sharp two-regime hierarchy with an empty middle ground. These findings provide the mechanistic explanation for the empirical observation that recurrent models fail at associative recall, and reframe attention as a representation constructor rather than merely a computation mechanism.
- Abstract(参考訳): コンテンツベースのルーティング – 高価な注意に値するトークンを決定するには、ルーティングを回避するために設計されたペアの計算が必要です。
3つのタスク(総合診断、Zoology MQARベンチマーク、HotpotQA)にわたる20以上の制御された実験を通して、ルーティングランドスケープを網羅的にマッピングする。
ソフトマックスアテンションの1つの層は、98.4%のルーティング精度を実現し、ゼロ層は1.2%の遅延次元部分空間を生成する。
この部分空間はコサイン類似性には見えず、ランダムな投影(98.4%から2.6%)によって破壊され、対照的な事前訓練によって生成できない。
12の代替メカニズムはすべて15-29%のクラスタである。
非学習指標(ブルームフィルタ90.9%、ホットポットQAのBM2582.7%)はボトルネックを完全に回避している。
その結果、空の中間地盤を持つ鋭い2列構造となった。
これらの知見は、再帰モデルが連想的リコール時に失敗する経験的観察を機械論的に説明し、単に計算機構ではなく表現コンストラクタとして再配置するものである。
関連論文リスト
- Cascade-Aware Multi-Agent Routing: Spatio-Temporal Sidecars and Geometry-Switching [0.0]
高度なAI推論システムにおける一般的なアーキテクチャパターンは、シンボルグラフネットワークである。
現在のスケジューラは最適化と適合性があるが、幾何盲である。
木のようなデリゲートでは、単一障害が指数関数的にカスケードする。
密度巡回グラフでは、失敗は自己極限となる傾向がある。
論文 参考訳(メタデータ) (2026-03-17T20:10:16Z) - The Discrete Charm of the MLP: Binary Routing of Continuous Signals in Transformer Feed-Forward Layers [0.0]
言語モデルの層が連続的な信号のバイナリルーティングを行うことを示す。
特定のニューロンは93-98%の相互排他的なコンセンサスアーキテクチャを実装している。
本稿では,ディープネットワークの高機能な特徴付けをルーティング特徴付けによって補うことを提案する。
論文 参考訳(メタデータ) (2026-03-11T17:14:57Z) - Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers [0.0]
与えられたプロンプトに対して、各レイヤにまたがる専門家アクティベーションパターンを要約したベクトル表現であるルーティングシグネチャを導入する。
同一タスクカテゴリからのプロンプトは、非常に類似したルーティングシグネチャを誘導する一方、異なるカテゴリからのプロンプトは、かなり類似度が低いことを示す。
ルーティングシグネチャのみに訓練されたロジスティック回帰は、4方向タスク分類において92.5%+/-6.1%のクロスバリデーション精度を達成する。
論文 参考訳(メタデータ) (2026-03-11T12:45:53Z) - SEER: Spectral Entropy Encoding of Roles for Context-Aware Attention-Based Design Pattern Detection [0.0]
本稿では,ソースコードからGang of Four(GoF)デザインパターンを検出するために,従来のContext Is All You Needのアップグレード版を提案する。
SEERはこれらの制限に、(i)各クラスの相互作用グラフのラプラシアンスペクトルからメンバーごとのロール埋め込みを導出するスペクトルエントロピーロールエンコーダ、(ii)メソッドカテゴリに経験的校正期間を割り当てる時間重呼出コンテキストの2つの原則で対処する。
PyDesignNet上のSEER(1,832ファイル、35,000のシーケンス、23のGoFパターン)を評価し、以前のシステムよりも一貫した利得を観察する。
論文 参考訳(メタデータ) (2026-01-19T19:13:40Z) - DeepPrune: Parallel Scaling without Inter-trace Redundancy [53.62015294143274]
並列推論トレースの80%以上は、実質的な無駄な計算を代表して、同じ最終回答をもたらす。
動的プルーニングによる効率的な並列スケーリングを実現する新しいフレームワークであるDeepPruneを提案する。
我々の研究は並列推論のための新しい標準を確立し、高性能推論をより効率的にする。
論文 参考訳(メタデータ) (2025-10-09T17:24:54Z) - Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation [84.00166854547241]
拡散変換器(DiT)はビデオ生成に必須であるが,注意の2次複雑さにより遅延が著しく低下する。
SVG2は,識別精度を最大化し,無駄を最小化する学習自由フレームワークである。
論文 参考訳(メタデータ) (2025-05-24T21:30:29Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。