論文の概要: Adaptive Computation Depth via Learned Token Routing in Transformers
- arxiv url: http://arxiv.org/abs/2605.05222v1
- Date: Sat, 18 Apr 2026 02:04:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.610367
- Title: Adaptive Computation Depth via Learned Token Routing in Transformers
- Title(参考訳): 変圧器の学習トークンルーティングによる適応計算深さ
- Authors: Ahmed Abdelmuniem Abdalla Mohammed,
- Abstract要約: Token-Selective Attention (TSA) は、連続する変圧器ブロック間の残差更新について学習した1対1のゲートである。
TSAは、明示的な深度圧力を伴わずに、困難部分のルーティングを学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard transformer architectures apply the same number of layers to every token regardless of contextual difficulty. We present Token-Selective Attention (TSA), a learned per-token gate on residual updates between consecutive transformer blocks. Each gate is a lightweight two-layer multi-layer perceptron (MLP) that produces a continuous halting probability, making the mechanism end-to-end differentiable with 1.7% parameter overhead and no changes to the base architecture. Notably, TSA learns difficulty-proportional routing without any explicit depth pressure: even at $λ=0$ (no depth regularisation), the task-loss gradient alone drives the router to skip 20% of token-layer operations. On character-level language modeling, TSA saved 14-23% of token-layer operations (TLOps) across Tiny-Shakespeare and enwik8 at <0.5% quality loss. At matched efficiency, TSA achieved 0.7% lower validation loss than early exit, and the learned routing transfers directly to inference-time sparse execution for real wall-clock speedup.
- Abstract(参考訳): 標準的なトランスフォーマーアーキテクチャは、コンテキストの難しさに関わらず、すべてのトークンに同じ数のレイヤを適用します。
本稿では,連続する変圧器ブロック間の残差更新について,学習者ごとのTSA(Token-Selective Attention)を提案する。
各ゲートは軽量な2層多層パーセプトロン(MLP)であり、連続的な停止確率を発生させ、そのメカニズムは1.7%のパラメータオーバヘッドとベースアーキテクチャの変更を伴わない。
特にTSAは、明示的な深度圧力を伴わずに、困難部分のルーティングを学習する:$λ=0$(深さ正規化なし)でも、タスクロス勾配だけで、ルータはトークン層演算の20%をスキップする。
文字レベルの言語モデリングでは、TSAはTiny-Shakespeareとenwik8で14~23%のトークン層操作(TLOps)を0.5%の品質損失で節約した。
一致した効率で、TSAは早期出口よりも0.7%低い検証損失を達成し、学習されたルーティングは実際のウォールクロックのスピードアップのために推論時スパース実行に直接転送される。
関連論文リスト
- Unified Spatio-Temporal Token Scoring for Efficient Video VLMs [61.08183446817756]
トケンプルーニングは視覚言語モデルの計算効率を高めるために不可欠である。
本稿では,視覚トークンを ViT と LLM の両方にわたってプルークする,シンプルで軽量なモジュールである Spatio-Temporal Token Scoring (STTS) を紹介する。
STTSはアーキテクチャ全体の視覚トークンの50%を突破し、トレーニングと推論の両方で効率が62%向上した。
論文 参考訳(メタデータ) (2026-03-18T17:59:56Z) - Turbo Connection: Reasoning as Information Flow from Higher to Lower Layers [3.5406493340002303]
本稿では,複数の残差接続をルーティングすることで,固定深度制約を克服する新しいアーキテクチャであるTurboConnを紹介する。
TurboConnは、タスク固有の高原を克服するために、事前訓練されたLLMに統合することができる。
この結果から,計算経路の深さが推論能力の重要な要素であることを示す。
論文 参考訳(メタデータ) (2026-02-20T05:01:32Z) - Sprint: Sparse-Dense Residual Fusion for Efficient Diffusion Transformers [91.02299679350834]
Diffusion Transformer (DiTs) は最先端の生成性能を提供するが、シークエンス長の2次トレーニングコストは大規模な事前訓練を不当に高価にする。
本稿では,高効率拡散変換器のためのスパース-デンス残差核融合法を提案する。
論文 参考訳(メタデータ) (2025-10-24T19:29:55Z) - What Layers When: Learning to Skip Compute in LLMs with Residual Gates [66.23658560048241]
GateSkipは、デコーダのみのLMにおけるトークンワイド層スキップを可能にする残差ストリームゲーティング機構である。
各Attention/MLPブランチは、残ストリームに再入力する前に、ブランチの出力を凝縮するシグモイドリニアゲートを備えている。
論文 参考訳(メタデータ) (2025-10-13T16:31:50Z) - DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers [28.595962720945348]
変換器は多くのタスクにまたがって最先端の結果を得るが、2次自己注意の均一な適用により計算コストがかかる。
改良されたトランスフォーマーアーキテクチャであるDynamic Token Routing Networkを導入し、トークンがクロストークンミキシングの2次コストを動的にスキップできるようにする。
論文 参考訳(メタデータ) (2025-08-31T16:21:21Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Block-based Symmetric Pruning and Fusion for Efficient Vision Transformers [11.916258576313776]
Vision Transformer (ViT) は様々な視覚タスクで印象的な結果を得た。
近年の方法は、重要でないトークンをプルーニングすることで、ViTの$O(n2)$複雑さを減らすことを目的としている。
効率的なViTのための新しいbfブロックベースのシンメトリプルーニングとフュージョンを提案する。
論文 参考訳(メタデータ) (2025-07-16T10:48:56Z) - Similarity-Aware Token Pruning: Your VLM but Faster [1.9183218182020931]
本稿では、視覚変換器(ViT)と視覚言語モデル(VLM)のためのトレーニングフリートークン解析フレームワークであるSAINTを紹介する。
系統的な解析により,変圧器における3段階の普遍的なトークン進化過程を同定し,臨界情報を犠牲にすることなく早期にアグレッシブプルーニングを可能にする。
ViTでは、SAINTは224pxでViT-H/14のスループットを2倍にし、ImageNet-1Kの精度はわずか0.6%で、最も近い競合相手を0.8%上回っている。
論文 参考訳(メタデータ) (2025-03-14T16:12:23Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Learned Token Pruning for Transformers [39.181816379061374]
Learned Token Pruning ()メソッドは、データがトランスフォーマーの異なるレイヤを通過すると、冗長なトークンを減らす。
複数のGLUEタスクに対して,提案手法の性能を広範囲に検証する。
予備的な結果はTesla T4とIntel Haswellの1.4倍と1.9倍のスループット向上を示す。
論文 参考訳(メタデータ) (2021-07-02T09:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。