論文の概要: DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers
- arxiv url: http://arxiv.org/abs/2509.00925v1
- Date: Sun, 31 Aug 2025 16:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.466436
- Title: DTRNet: Dynamic Token Routing Network to Reduce Quadratic Costs in Transformers
- Title(参考訳): DTRNet:トランスの2次コスト削減のための動的トークンルーティングネットワーク
- Authors: Aman Sharma, Saeed Najafi, Parsa Farinneya, Benyamin Jamialahmadi, Marzieh S. Tahaei, Yuhe Fan, Mehdi Rezagholizadeh, Boxing Chen, Aref Jafari,
- Abstract要約: 変換器は多くのタスクにまたがって最先端の結果を得るが、2次自己注意の均一な適用により計算コストがかかる。
改良されたトランスフォーマーアーキテクチャであるDynamic Token Routing Networkを導入し、トークンがクロストークンミキシングの2次コストを動的にスキップできるようにする。
- 参考スコア(独自算出の注目度): 28.595962720945348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers achieve state-of-the-art results across many tasks, but their uniform application of quadratic self-attention to every token at every layer makes them computationally expensive. We introduce DTRNet (Dynamic Token Routing Network), an improved Transformer architecture that allows tokens to dynamically skip the quadratic cost of cross-token mixing while still receiving lightweight linear updates. By preserving the MLP module and reducing the attention cost for most tokens to linear, DTRNet ensures that every token is explicitly updated while significantly lowering overall computation. This design offers an efficient and effective alternative to standard dense attention. Once trained, DTRNet blocks routes only ~10% of tokens through attention at each layer while maintaining performance comparable to a full Transformer. It consistently outperforms routing-based layer skipping methods such as MoD and D-LLM in both accuracy and memory at matched FLOPs, while routing fewer tokens to full attention. Its efficiency gains, scales with sequence length, offering significant reduction in FLOPs for long-context inputs. By decoupling token updates from attention mixing, DTRNet substantially reduces the quadratic share of computation, providing a simple, efficient, and scalable alternative to Transformers.
- Abstract(参考訳): トランスフォーマーは多くのタスクにまたがって最先端の結果を得るが、全ての層におけるトークンに対する2次自己注意の均一な適用によって計算コストがかかる。
DTRNet(Dynamic Token Routing Network)は改良されたトランスフォーマーアーキテクチャで、トークンは軽量なリニアアップデートを受信しながら、クロストークンミキシングの2次コストを動的にスキップすることができる。
MLPモジュールを保存し、ほとんどのトークンの注意を線形にすることで、DTRNetは全てのトークンが明示的に更新され、全体的な計算を大幅に削減する。
この設計は、標準的な高密度の注意に対する効率的で効果的な代替手段を提供する。
トレーニングが完了すると、DTRNetは各レイヤに注意を払い、トークンの約10%をルーティングすると同時に、フルトランスフォーマーに匹敵するパフォーマンスを維持する。
MoDやD-LLMのようなルーティングベースのレイヤスキップ手法を、一致するFLOPの精度とメモリの両方で一貫して上回り、トークンのルーティングも少ない。
その効率は向上し、シーケンス長のスケールが増加し、長文入力のためのFLOPが大幅に減少する。
DTRNetはトークンの更新をアテンションミキシングから切り離すことで、計算の二次的なシェアを大幅に減らし、トランスフォーマーの単純で効率的でスケーラブルな代替手段を提供する。
関連論文リスト
- SCOUT: Toward Sub-Quadratic Attention via Segment Compression for Optimized Utility in Transformers [15.142822497807236]
固定サイズセグメント内でトークンを局所的に圧縮し,これらの圧縮表現にのみ注目するハイブリッドアーキテクチャであるSCOUTを提案する。
SCOUTは、計算コストとメモリコストを大幅に削減しつつ、完全な注意の表現力を保っている。
SCOUTの計算とメモリ効率を解析し、長文言語モデリングおよび推論タスクで経験的に評価する。
論文 参考訳(メタデータ) (2025-08-31T17:08:33Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - Efficient Point Transformer with Dynamic Token Aggregating for LiDAR Point Cloud Processing [19.73918716354272]
LiDARポイントクラウド処理と解析は、3Dトランスの開発によって大きな進歩を遂げた。
既存の3Dトランスフォーマー法は通常、計算コストが高く、大きな注意マップと冗長な注意マップのために非効率である。
ポイントクラウド表現と処理のための動的トークン集約(DTA-Former)を用いた効率的なポイントトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2024-05-23T20:50:50Z) - Progressive Token Length Scaling in Transformer Encoders for Efficient Universal Segmentation [67.85309547416155]
ユニバーサルセグメンテーションのための強力なアーキテクチャは、マルチスケールの画像特徴を符号化し、オブジェクトクエリをマスク予測にデコードするトランスフォーマーに依存している。
このようなモデルのスケーリングには効率性が優先されるため、最先端のMask2Formerでは、変換器エンコーダのみに計算の50%を使用しています。
これは、エンコーダ層ごとにすべてのバックボーン機能スケールのトークンレベルの完全な表現が保持されているためである。
論文 参考訳(メタデータ) (2024-04-23T01:34:20Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - PoNet: Pooling Network for Efficient Token Mixing in Long Sequences [34.657602765639375]
本稿では,線形複雑度を持つ長列のトークン混合のための新しいPooling Network(PoNet)を提案する。
Long Range Arenaベンチマークでは、PoNetはTransformerを著しく上回り、競合する精度を実現している。
論文 参考訳(メタデータ) (2021-10-06T01:07:54Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z) - FNet: Mixing Tokens with Fourier Transforms [0.578717214982749]
Transformerエンコーダアーキテクチャは、限られた精度コストで大幅に高速化できることを示しています。
入力トークンを「混合」する単純な線形変換に自己着脱部分層を置き換える。
FNetと呼ばれる結果のモデルは、長い入力に対して非常に効率的にスケールします。
論文 参考訳(メタデータ) (2021-05-09T03:32:48Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。