論文の概要: RadixMLP - Intra-batch Deduplication for Causal Transformers
- arxiv url: http://arxiv.org/abs/2601.15013v1
- Date: Wed, 21 Jan 2026 14:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.385864
- Title: RadixMLP - Intra-batch Deduplication for Causal Transformers
- Title(参考訳): RadixMLP - 因果変換器のバッチ内重複
- Authors: Michael Feil, Julius Lipp,
- Abstract要約: RadixMLPは、位置対応表現、LayerNorms、線形プロジェクション、埋め込みを利用して冗長性を排除する。
RadixMLPはステートレスであり、単一のフォワードパス内で動作する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Batch inference workloads for causal transformer models frequently process sequences that share common prefixes, such as system prompts, few-shot examples, or shared queries. Standard inference engines treat each sequence independently, redundantly recomputing identical MLP activations for every copy of the shared prefix. We introduce RadixMLP, a technique that exploits the position-wise nature of MLPs, LayerNorms, linear projections, and embeddings to eliminate this redundancy. RadixMLP dynamically maps batches to a prefix trie, gathering shared segments into a compressed representation for position-wise computation and scattering results back only at attention boundaries. RadixMLP is stateless and operates within a single forward pass. In end-to-end serving benchmarks on MS~MARCO v1.1 with Qwen3 models (0.6B to 8B parameters), RadixMLP achieves 1.44-1.59$\times$ speedups in realistic reranking workloads, with up to $5\times$ speedups on synthetic benchmarks with longer shared prefixes. Our code is available at https://github.com/michaelfeil/radix-mlp.
- Abstract(参考訳): 因果変換モデルのバッチ推論ワークロードは、システムプロンプトや少数ショット例、共有クエリなど、一般的なプレフィックスを共有するシーケンスを頻繁に処理する。
標準推論エンジンは各シーケンスを独立に処理し、共有プレフィックスのコピー毎に同じMPPアクティベーションを冗長に再計算する。
我々は,MLP,LayerNorms,線形射影,埋め込みなどの位置対応性を活かしたRadixMLPを導入し,その冗長性を解消する。
RadixMLPはバッチをプレフィックストリエに動的にマッピングし、共有セグメントを圧縮表現に集め、位置演算と散乱結果を注意境界のみに戻す。
RadixMLPはステートレスであり、単一のフォワードパス内で動作する。
Qwen3モデル(0.6Bから8Bパラメータ)によるMS~MARCO v1.1のエンドツーエンドのサービスベンチマークでは、RadixMLPは現実的な再ランクワークロードにおいて1.44-1.59$\times$のスピードアップを達成した。
私たちのコードはhttps://github.com/michaelfeil/radix-mlp.comで利用可能です。
関連論文リスト
- Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - FSMLP: Modelling Channel Dependencies With Simplex Theory Based Multi-Layer Perceptions In Frequency Domain [16.693117400535833]
時系列予測(TSF)は、Webデータ分析、エネルギー消費予測、天気予報など、さまざまな領域において重要な役割を果たす。
MLP(Multi-Layer Perceptrons)は、一時的依存関係をキャプチャするのに軽量で効果的であるが、チャネル間の依存関係をモデル化する場合、過度に適合する傾向がある。
本手法では, モデルが単純なパターンを学習し, 過度な値に収まらないようにする。
論文 参考訳(メタデータ) (2024-12-02T16:04:15Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - TriMLP: Revenge of a MLP-like Architecture in Sequential Recommendation [23.32537260687907]
本稿では,TriMLPという逐次レコメンデーションのためのシーケンシャルなアーキテクチャと,クロストークン通信のための新しい三角形ミキサーを提案する。
三角ミキサーの設計において,基本行列乗算としてのクロストケン操作のイナシイを単純化し,重み行列の下方三角形ニューロンを落として,反時間次接続を将来のトークンからブロックする。
論文 参考訳(メタデータ) (2023-05-24T03:32:31Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - UNeXt: MLP-based Rapid Medical Image Segmentation Network [80.16644725886968]
UNetとその最新の拡張であるTransUNetは、ここ数年で主要な医療画像分割手法である。
画像分割のための畳み込み多層パーセプトロンネットワークUNeXtを提案する。
パラメータ数を72倍に減らし,計算複雑性を68倍に減らし,推論速度を10倍に改善し,セグメンテーション性能も向上した。
論文 参考訳(メタデータ) (2022-03-09T18:58:22Z) - Mixing and Shifting: Exploiting Global and Local Dependencies in Vision
MLPs [84.3235981545673]
Token-mixing Multi-layer Perceptron (MLP) モデルはコンピュータビジョンタスクにおいて競合性能を示す。
本研究では,空間シフトの量に関して,局所受容場のサイズを増大させるMix-Shift-MLPを提案する。
MS-MLPは、複数のビジョンベンチマークで競合性能を達成する。
論文 参考訳(メタデータ) (2022-02-14T06:53:48Z) - RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality [113.1414517605892]
そこで本研究では,FC層に局所前処理を組み込む手法であるLocality Injectionを提案する。
RepMLPNetはCityscapesセマンティックセグメンテーションにシームレスに移行した最初の企業である。
論文 参考訳(メタデータ) (2021-12-21T10:28:17Z) - Sparse-MLP: A Fully-MLP Architecture with Conditional Computation [7.901786481399378]
厳密な条件計算を伴うMoE(Mixture-of-Experts)は、注意に基づくモデルを、同等の計算コストでより多くのパラメータに拡張するための効果的なアーキテクチャであることが証明されている。
我々は、より効率的なアーキテクチャを実現するために、最近のMixerモデルをMoEで拡張するSparse-MLPを提案する。
論文 参考訳(メタデータ) (2021-09-05T06:43:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。