論文の概要: MLPs are Efficient Distilled Generative Recommenders
- arxiv url: http://arxiv.org/abs/2605.12617v1
- Date: Tue, 12 May 2026 18:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.605602
- Title: MLPs are Efficient Distilled Generative Recommenders
- Title(参考訳): MLPは効率的な蒸留生成レコメンダである
- Authors: Zitian Guo, Yupeng Hou, Clark Mingxuan Ju, Neil Shah, Julian McAuley,
- Abstract要約: セマンティックID(SID)を用いた生成モデルは大きな可能性を秘めているが、その実践的展開は推論のレイテンシの高さによってボトルネックになっている。
本研究では,標準的な注目度の高いトランスフォーマーデコーダが,このタスクに対する構造的オーバースキルであることを示す。
本稿では,GRのデコードパラダイムを根本的に単純化する軽量中心蒸留フレームワークであるSID-MLPを提案する。
- 参考スコア(独自算出の注目度): 39.47481660602306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative recommendation models employing Semantic IDs (SIDs) exhibit strong potential, yet their practical deployment is bottlenecked by the high inference latency of beam-expanded autoregressive decoding. In this work, we identify that standard attention-heavy Transformer decoders represent a structural overkill for this task: the hierarchical nature of SIDs makes prediction difficulty drops sharply after the first token, rendering repeated attention computations highly redundant. Driven by this insight, we propose SID-MLP, a lightweight MLP-centric distillation framework that fundamentally simplifies the decoding paradigm for GR. Instead of executing complex, step-by-step attention mechanisms, our approach captures the global user context in a single operation, decoupled from sequential token prediction. We then distill the heavy autoregressive teacher into position-specific MLP heads, eliminating the dense attention overhead while preserving prefix and context dependencies. Extensive experiments demonstrate that SID-MLP matches the accuracy of teacher models while accelerating inference by 8.74x. Crucially, this distillation strategy can serve as a plug-and-play accelerator for different backbones and tokenizer settings. Furthermore, we introduce SID-MLP++, extending our distillation framework to replace the Transformer encoder, unlocking further latency reductions. Ultimately, our work reveals that decoder-side MLPs distillation is an effective acceleration path for structured SID recommendation, while full encoder replacement offers an additional speed--accuracy trade-off.
- Abstract(参考訳): セマンティックID(SID)を用いたジェネレーティブレコメンデーションモデルは大きな可能性を秘めているが、その実践的展開はビーム拡張自己回帰復号の高推論遅延によってボトルネックとなる。
SIDの階層的な性質は、最初のトークンの後に予測困難を急激に減らし、繰り返しの注意計算を非常に冗長にする。
この知見に基づいて,GRのデコードパラダイムを根本的に単純化する軽量なMLP中心蒸留フレームワークであるSID-MLPを提案する。
複雑でステップバイステップの注意機構を実行する代わりに、我々のアプローチは、シーケンシャルトークン予測から切り離された単一の操作で、グローバルなユーザコンテキストをキャプチャする。
次に,重度自己回帰教師を位置特異的なMLPヘッドに蒸留し,プレフィックスやコンテキスト依存を保ちながら,集中的な注意のオーバーヘッドを解消する。
大規模な実験により、SID-MLPは教師モデルの精度と一致し、推論は8.74倍に加速した。
重要なことは、この蒸留戦略は異なるバックボーンとトークン化剤設定のためのプラグアンドプレイアクセラレーターとして機能する。
さらに,SID-MLP++を導入し,蒸留フレームワークを拡張してTransformerエンコーダを置き換えることで,さらなるレイテンシ低減を実現する。
究極的には、デコーダ側のMPP蒸留は構造化SIDレコメンデーションの効果的な加速経路であり、フルエンコーダ置換はさらなる速度-精度トレードオフを提供する。
関連論文リスト
- AHPA: Adaptive Hierarchical Prior Alignment for Diffusion Transformers [24.937985157569823]
我々は,信号と雑音の比に応じて,表現監督の有用な粒度が体系的に変化するため,このような時間ステップに依存しないアライメントが最適であると主張する。
ハイノイズでは拡散モデルはより粗い意味とレイアウトレベルのアンカーの恩恵を受けるが、低ノイズでは、トレーニング信号は空間的詳細で構造的に忠実な洗練を強調するべきである。
この非定常アライメント動作は、静的なシングルレベルスーパーバイザーに対する表現ミスマッチを生成する。
論文 参考訳(メタデータ) (2026-05-05T03:07:29Z) - Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation [22.025559532445012]
両端最適化戦略を利用したSTAMP(Semantic Trimming and Auxiliary Multi-step Prediction)を提案する。
パブリックなAmazonおよび大規模産業データセットの実験では、STAMPは1.23--1.38$times$ speedupと17.2%--54.7%のVRAM削減を達成した。
論文 参考訳(メタデータ) (2026-04-07T02:00:23Z) - SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [104.01865949020304]
エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:45:47Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。
このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。
我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文 参考訳(メタデータ) (2024-02-24T08:10:39Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。