論文の概要: Meta-Attention: Bayesian Per-Token Routing for Efficient Transformer Inference
- arxiv url: http://arxiv.org/abs/2605.28384v1
- Date: Wed, 27 May 2026 12:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.039324
- Title: Meta-Attention: Bayesian Per-Token Routing for Efficient Transformer Inference
- Title(参考訳): メタ注意:効率的な変圧器推論のためのベイジアンパートーケンルーティング
- Authors: Alan Ferrari,
- Abstract要約: 本稿では,各トークンを最も適切な注意戦略に動的にルーティングするフレームワークであるMeta-Attentionを提案する。
決定論的または事前自由な学習ルーティングを使用する以前のルーティングアプローチとは異なり、Meta-Controllerは、トークン毎のメカニズム選択を後部推論として扱う。
この設計は、ソフトからハードへのルーティング遷移を制御し、アドホックな負荷分散損失を伴わずにルーティング崩壊を緩和し、より良い計算性能のトレードオフをもたらす、原則化されたルーティング不確実性推定を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standard transformer architectures apply a single attention mechanism uniformly across all tokens and sequence positions, irrespective of local context or computational budget. We propose Meta-Attention, a framework that dynamically routes each token to the most appropriate attention strategy -- full softmax attention, linear (kernel) attention, or sliding-window local attention -- via a Bayesian Meta-Controller. Unlike prior routing approaches that use deterministic or prior-free learned routing, the Meta-Controller treats per-token mechanism selection as posterior inference under a compute-aware Dirichlet prior: routing weights are the output of an amortised variational posterior q(alpha | x_t; phi) trained with an Evidence Lower Bound (ELBO) objective that jointly encodes task performance and attention-mechanism cost. This design produces principled routing uncertainty estimates that govern the soft-to-hard routing transition, mitigates routing collapse without ad hoc load-balancing losses, and yields better compute-performance trade-offs than deterministic or prior-free learned routing at negligible overhead. Phase 1 empirical results on a Tiny LM benchmark confirm core predictions: the Bayesian controller's learned routing distribution implies a projected normalised FLOP cost of 25.1% under hard routing, vs. 59.3% for the prior-free baseline (-34.2 pp), and reduces routing entropy from 55.8% to 43.3% (-12.5 pp), demonstrating that the Dirichlet prior prevents routing collapse while the non-Bayesian model defaults to full attention. We present the Bayesian architecture, ELBO training objective, and a Phase 1 PyTorch prototype validating forward-pass correctness, posterior diversity, and a controlled ablation against a prior-free baseline. Code available at: https://github.com/KFEAL/meta-attention
- Abstract(参考訳): 標準的なトランスフォーマーアーキテクチャは、ローカルコンテキストや計算予算に関係なく、すべてのトークンとシーケンス位置に対して一様に単一の注意機構を適用する。
提案するMeta-Attentionは,各トークンを最も適切な注意戦略 – ソフトマックスアテンション,リニア(カーネル)アテンション,あるいはスライディングウインドウローカルアテンション – に動的にルーティングするフレームワークである。
決定論的または事前自由な学習ルーティングを使用する以前のルーティングアプローチとは異なり、Meta-Controllerは、各トークンメカニズムの選択を、計算に意識したディリクレの事前推論として扱う: ルーティングウェイトは、タスクのパフォーマンスと注意-機械的コストを共同でエンコードするエビデンス・ローワー・バウンド(ELBO)の目標でトレーニングされた、償却された変動後q(alpha | x_t; phi)の出力である。
この設計は、ソフトからハードへのルーティング遷移を制御し、アドホックなロードバランシング損失を伴わずにルーティング崩壊を緩和し、決定論的または事前に学習されたルーティングよりも、優れた計算性能のトレードオフをもたらす、原則的なルーティング不確実性推定を生成する。
ベイジアンコントローラの学習されたルーティング分布は、ハードなルーティングの下で25.1%の正規化FLOPコストが予想されるのに対して、事前のフリーベースライン(-34.2 pp)では59.3%であり、ルーティングエントロピーを55.8%から43.3%(-12.5 pp)に減少させ、非ベイジアンモデルがデフォルトとなる間にディリクレがルーティング崩壊を防いでいることを示す。
本稿では, ベイズ建築, ELBO訓練目標, およびPyTorchプロトタイプについて, 前方通過の正当性, 後続の多様性, および事前自由ベースラインに対する制御的アブレーションを検証した。
https://github.com/KFEAL/meta-attention
関連論文リスト
- CR^2: Cost-Aware Risk-Controlled Routing for Wireless Device-Edge LLM Inference [52.849509991178884]
大規模言語モデル(LLM)は集中型クラウドからモバイルエッジ環境に移行する。
軽量オンデバイスモデルとより強力なエッジモデルの間のクエリレベルのルーティングは、このトレードオフをナビゲートするための柔軟なメカニズムを提供する。
既存のルータは、集中クラウド設定とトークンレベルのコストの最適化のために設計されており、無線エッジデプロイメントにおける動的レイテンシとエネルギーオーバーヘッドをキャプチャできない。
論文 参考訳(メタデータ) (2026-05-12T11:50:15Z) - Same Signal, Opposite Meaning: Direction-Informed Adaptive Learning for LLM Agents [24.71914991820339]
LLMエージェントは、性能改善時にのみ余分な計算を実行することを目標としている。
既存の手法では、計算の計算に必要なゲーティング信号から計算の値への一定の方向を仮定して、信頼性、不確実性、難易度に基づくゲートを用いるのが一般的である。
このアライメントは不安定であり、タスクが修正された場合でも環境やバックボーンをまたいで逆転する。
DIAL(Direction-Informed Adaptive Learning)は、信号に依存しない対実探索から訓練されたスパースゲートであり、各状態特徴の実用方向を学習する。
論文 参考訳(メタデータ) (2026-05-07T20:15:51Z) - Posterior Augmented Flow Matching [64.1559809786948]
後拡張フローマッチング(PAFM)はフローマッチング(FM)の一般化である
PAFMは、異なるモデルスケールで最大3.4FID50KでFMよりも改善されていることを示す。
論文 参考訳(メタデータ) (2026-05-01T17:59:59Z) - Directional Routing in Transformers [0.0]
指向性ルーティングは、共有ルータによって制御される各トランスフォーマーアテンションヘッド学習抑制方向を提供する軽量なメカニズムである。
結果の回路を機械的解釈可能性によってトレースする。
ルーティングは、ベースラインに対するパープレキシティを31~56%削減するが、下流の多重選択ベンチマークはまだこれらの利得を反映していない。
論文 参考訳(メタデータ) (2026-03-16T07:28:22Z) - Proactive Routing to Interpretable Surrogates with Distribution-Free Safety Guarantees [0.5518378568494161]
動作前に,ライトウェイトゲートがモデルを選択するプロアクティブ(インプットベース)ルーティングについて検討する。
安全なルーティングをベースセーフレートとリスク予算にリンクする実現可能性条件と、実行可能なルーティングが存在することを保証する十分なAUCしきい値とを導出する。
論文 参考訳(メタデータ) (2026-03-15T21:38:43Z) - Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - Think When Needed: Model-Aware Reasoning Routing for LLM-based Ranking [25.69863022367215]
推論プロンプトはランキングユーティリティを向上させることができるが、その利点は一貫性がなく、かなりの計算コストがかかる。
本稿では, 直接推論 (Non-Think) と推論 (Think) を用いるかを決定するために, 軽量なプラグアンドプレイルータヘッドを用いた推論ルーティングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-26T05:09:07Z) - You Only Need Your Transformer 25% of the Time: Meaning-First Execution for Eliminating Unnecessary Inference [0.0]
本稿では,このフレームワークを実装したコントロールプレーンアーキテクチャであるMeaning-First Execution (MFEE)を紹介する。
MFEEは78.1%の実行削減を実現し、呼び出された実行に対する100%の正確なマッチ等価性を維持している。
論文 参考訳(メタデータ) (2025-12-29T08:03:52Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。