論文の概要: Cascade Token Selection for Transformer Attention Acceleration
- arxiv url: http://arxiv.org/abs/2605.03110v1
- Date: Mon, 04 May 2026 19:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.62764
- Title: Cascade Token Selection for Transformer Attention Acceleration
- Title(参考訳): 変圧器注意促進のためのカスケードトークン選択
- Authors: Stephen J. Thomas,
- Abstract要約: カスケードメカニズムは、Layer $l$からLayer $l+1$に代表セットを継承し、$(T - r) times r$ cross-Gramで検証し、少数の追加と削除で更新する。
選択ステップのコストは、層ごとに$O(T2 d)$から$O(T r d)$に低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A method is presented for reducing the cost of representative token selection in transformer attention layers by exploiting the coherence of the representative set across depth. Activation Decorrelation Attention (ADA) selects $r \ll T$ representative tokens at each layer via a Gram threshold and computes attention on the compressed $r \times r$ problem, but the selection requires a $T \times T$ Gram matrix at every layer. The cascade mechanism introduced here inherits the representative set from layer $l$ to layer $l+1$, validates it via a $(T - r) \times r$ cross-Gram computation, and updates it with a small number of additions and removals. The cost of the selection step drops from $O(T^2 d)$ to $O(T r d)$ per layer. Validation on three model families (GPT-2 124M, GPT-J 6B, OPT 6.7B) on AMD MI300X demonstrates Gram operation savings of $22\%$ to $63\%$ with mean Jaccard overlap of $0.83$ to $0.94$ between consecutive layers. The cascade reveals that the set of informative tokens is a structural property of the input that propagates coherently through the depth of the network: the same tokens carry the non-redundant information at layer $l$ and at layer $l+1$.
- Abstract(参考訳): 奥行きの代表集合のコヒーレンスを利用して、変圧器注目層における代表トークン選択のコストを低減する方法を提案する。
アクティベーション・デコレーション・アテンション(ADA)は、グラムしきい値を介して各層で$r \ll T$代表トークンを選択し、圧縮された$r \times r$問題に注意を向けるが、選択には各層で$T \times T$Gram行列が必要である。
ここで導入されたカスケードメカニズムは、層$l$から層$l+1$に代表セットを継承し、$(T - r) \times r$ cross-Gram計算を通じて検証し、少数の追加と削除で更新する。
選択ステップのコストは、層当たり$O(T^2 d)$から$O(T r d)$に低下する。
AMD MI300Xの3つのモデルファミリー(GPT-2 124M, GPT-J 6B, OPT 6.7B)の検証では、連続層間のJaccardのオーバーラップ平均は0.83ドルから0.94ドルである。
カスケードは、情報トークンの集合が、ネットワークの深さを通してコヒーレントに伝播する入力の構造的特性であることを明らかにした:同じトークンは、層$l$と層$l+1$で非冗長情報を運ぶ。
関連論文リスト
- Scaling Federated Linear Contextual Bandits via Sketching [49.12000877146222]
本稿では,FSCLB(Federated Sketch Contextual Linear Bandits)を提案する。
合成と実世界の両方のデータセットの実験では、FSCLBは計算と通信のコストを90%以上削減している。
論文 参考訳(メタデータ) (2026-05-01T08:22:06Z) - Attention with Trained Embeddings Provably Selects Important Tokens [73.77633297039097]
トーケン埋め込みは言語モデリングにおいて重要な役割を担っているが、この実践的関連性にもかかわらず、理論的な理解は限られている。
本論文は,勾配降下法により得られた埋め込み構造を特徴付けることにより,そのギャップを解消する。
実世界のデータセット(IMDB、Yelp)の実験では、我々の理論が明らかにしたものに近い現象が示されている。
論文 参考訳(メタデータ) (2025-05-22T21:00:09Z) - AnchorFormer: Differentiable Anchor Attention for Efficient Vision Transformer [13.945118817568366]
本稿では,アンカートークンを用いたアンカーベースの効率的な視覚変換器(AnchorFormer)を提案する。
神経層内のニューロンでアンカーを表現することにより、これらのアンカーを区別して学習し、大域的自己注意を近似することができる。
実験では、AnchorFormerの有効性を示し、ImageNet分類における9.0%の精度または46.7%のFLOPs削減を実現した。
論文 参考訳(メタデータ) (2025-05-22T09:44:44Z) - Ehrenfeucht-Haussler Rank and Chain of Thought [51.33559894954108]
本稿では、よく知られたトランスフォーマーアーキテクチャを基盤とした、ランクの新たな特徴付けについて述べる。
関数 $f$ のランクは、単一層変換器が要求する思考ステップの EmphChain の最小値に対応していることを示す。
また、マルチヘッド単一層トランスをキャプチャするマルチヘッドランクの概念を導入し、有界なマルチヘッドランクを持つ関数クラスのPAC学習性の解析を行う。
論文 参考訳(メタデータ) (2025-01-22T16:30:58Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - FIT: Far-reaching Interleaved Transformers [15.302386132016496]
本稿では,自己アテンションと適応計算を効率よく行うトランスフォーマーアーキテクチャを提案する。
ローカルレイヤは各グループ内のデータトークンで動作し、グローバルレイヤはより小さな潜在トークンで動作します。
FITは6400$times$6400イメージや16GBのメモリ容量で(パッチトークン化後の)160Kトークンなど、ギガビットスケールのデータをエンドツーエンドでトレーニングする可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T03:56:44Z) - Rethinking Query, Key, and Value Embedding in Vision Transformer under
Tiny Model Constraints [3.7660066212240753]
ビジョントランス (ViT) はコンピュータビジョン分野において支配的なモデルである。
セマンティック$Q、K$、および$V$埋め込みの十分な考慮は、性能低下につながるかもしれない。
我々は、$Q$、$K$、$V$埋め込みの3種類の構造を提案する。
論文 参考訳(メタデータ) (2021-11-19T02:54:57Z) - Deep Learning Meets Projective Clustering [66.726500395069]
NLPネットワークを圧縮するための一般的なアプローチは、埋め込み層を行列 $AinmathbbRntimes d$ としてエンコードすることである。
計算幾何学から遠射的クラスタリングに着想を得て、この部分空間を$k$部分空間の集合で置き換えることを提案する。
論文 参考訳(メタデータ) (2020-10-08T22:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。