論文の概要: LIME: Link-based user-item Interaction Modeling with decoupled xor attention for Efficient test time scaling
- arxiv url: http://arxiv.org/abs/2510.18239v2
- Date: Mon, 27 Oct 2025 21:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.215523
- Title: LIME: Link-based user-item Interaction Modeling with decoupled xor attention for Efficient test time scaling
- Title(参考訳): LIME: 効率的なテスト時間スケーリングのための疎結合xorアテンションを用いたリンクベースのユーザ・イテムインタラクションモデリング
- Authors: Yunjiang Jiang, Ayush Agarwal, Yang Liu, Bi Xue,
- Abstract要約: 計算複雑性を低減する新しいアーキテクチャである textbfLIME を導入する。
LIME は最先端の変圧器とほぼ同値であるが、大きな候補セットや長いシーケンス長に対して 10$times$ の推論速度を持つ。
主要なレコメンデーションプラットフォームでテストすると、LIMEは最小の推論コストを維持しながらユーザエンゲージメントを改善した。
- 参考スコア(独自算出の注目度): 6.020465192157076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling large recommendation systems requires advancing three major frontiers: processing longer user histories, expanding candidate sets, and increasing model capacity. While promising, transformers' computational cost scales quadratically with the user sequence length and linearly with the number of candidates. This trade-off makes it prohibitively expensive to expand candidate sets or increase sequence length at inference, despite the significant performance improvements. We introduce \textbf{LIME}, a novel architecture that resolves this trade-off. Through two key innovations, LIME fundamentally reduces computational complexity. First, low-rank ``link embeddings" enable pre-computation of attention weights by decoupling user and candidate interactions, making the inference cost nearly independent of candidate set size. Second, a linear attention mechanism, \textbf{LIME-XOR}, reduces the complexity with respect to user sequence length from quadratic ($O(N^2)$) to linear ($O(N)$). Experiments on public and industrial datasets show LIME achieves near-parity with state-of-the-art transformers but with a 10$\times$ inference speedup on large candidate sets or long sequence lengths. When tested on a major recommendation platform, LIME improved user engagement while maintaining minimal inference costs with respect to candidate set size and user history length, establishing a new paradigm for efficient and expressive recommendation systems.
- Abstract(参考訳): 大きなレコメンデーションシステムをスケールするには、3つの大きなフロンティアを前進させる必要がある。
有望ながら、トランスフォーマーの計算コストは、ユーザシーケンスの長さと、候補数と直線的に2次的にスケールする。
このトレードオフにより、大幅な性能改善にもかかわらず、候補セットの拡張や推論時のシーケンス長の増大は違法にコストがかかる。
このトレードオフを解決する新しいアーキテクチャである \textbf{LIME} を紹介します。
2つの重要なイノベーションを通じて、LIMEは計算の複雑さを根本的に減らす。
まず、低ランクの ``link embeddings" は、ユーザと候補のインタラクションを分離することで、注意重みの事前計算を可能にします。
第二に、線形アテンション機構 \textbf{LIME-XOR} は、ユーザシーケンスの長さに関する複雑さを2次(O(N^2)$)から線形(O(N)$)へ減少させる。
パブリックデータセットと産業データセットの実験では、LIMEは最先端のトランスフォーマーとほぼ同等であるが、大きな候補セットや長いシーケンス長に対して10$\times$推論スピードアップを達成している。
主要なレコメンデーションプラットフォームでテストすると、LIMEは、候補セットのサイズとユーザ履歴の長さに関して最小限の推論コストを維持しながら、ユーザエンゲージメントを改善し、効率的で表現力のあるレコメンデーションシステムのための新しいパラダイムを確立した。
関連論文リスト
- Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。
これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。
我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文 参考訳(メタデータ) (2025-07-25T16:19:47Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - S$^3$Attention: Improving Long Sequence Attention with Smoothed Skeleton Sketching [51.38617149946765]
本稿ではスムースなスケルトンスケッチに基づくアテンション構造S$3$Attentionを提案する。
S$3$Attentionは、線形複雑性をシーケンス長に保ちながら、ノイズの影響を効果的に最小化する2つのメカニズムを持つ。
論文 参考訳(メタデータ) (2024-08-16T07:01:46Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme
Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。
DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。
実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文 参考訳(メタデータ) (2023-09-25T20:15:57Z) - AutoMLP: Automated MLP for Sequential Recommendations [20.73096302505791]
時系列リコメンデータシステムは,過去のインタラクションからユーザの次の関心項目を予測することを目的としている。
既存のアプローチは通常、徹底的な探索や経験的な経験によって、事前定義された短期的関心期間を設定する。
本稿では,ユーザの長期的・短期的関心をモデル化することを目的とした,新しいシーケンシャルレコメンデーションシステムAutoMLPを提案する。
論文 参考訳(メタデータ) (2023-03-11T07:50:49Z) - Sparse Attentive Memory Network for Click-through Rate Prediction with
Long Sequences [10.233015715433602]
本稿では,長期的ユーザ行動モデリングのためのスパース注意記憶ネットワークを提案する。
SAMは数千のスケールでユーザ行動シーケンスの効率的なトレーニングとリアルタイム推論をサポートする。
SAMは、世界最大の国際Eコマースプラットフォームのひとつとして成功している。
論文 参考訳(メタデータ) (2022-08-08T10:11:46Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。