論文の概要: VQL: An End-to-End Context-Aware Vector Quantization Attention for Ultra-Long User Behavior Modeling
- arxiv url: http://arxiv.org/abs/2508.17125v1
- Date: Sat, 23 Aug 2025 19:58:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.351571
- Title: VQL: An End-to-End Context-Aware Vector Quantization Attention for Ultra-Long User Behavior Modeling
- Title(参考訳): VQL: 超長期ユーザ行動モデリングのためのエンド・ツー・エンドコンテキスト対応ベクトル量子化アテンション
- Authors: Kaiyuan Li, Yongxiang Tang, Yanhua Cheng, Yong Bai, Yanxiang Zeng, Chao Wang, Xialong Liu, Peng Jiang,
- Abstract要約: 大規模レコメンデーションシステムでは、超長期のユーザ行動シーケンスは、進化する関心の豊かなシグナルを符号化する。
超長期動作モデリングのためのコンテキスト対応ベクトル量子化アテンションフレームワークであるVQLを提案する。
- 参考スコア(独自算出の注目度): 12.619238878583703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In large-scale recommender systems, ultra-long user behavior sequences encode rich signals of evolving interests. Extending sequence length generally improves accuracy, but directly modeling such sequences in production is infeasible due to latency and memory constraints. Existing solutions fall into two categories: (1) top-k retrieval, which truncates the sequence and may discard most attention mass when L >> k; and (2) encoder-based compression, which preserves coverage but often over-compresses and fails to incorporate key context such as temporal gaps or target-aware signals. Neither class achieves a good balance of low-loss compression, context awareness, and efficiency. We propose VQL, a context-aware Vector Quantization Attention framework for ultra-long behavior modeling, with three innovations. (1) Key-only quantization: only attention keys are quantized, while values remain intact; we prove that softmax normalization yields an error bound independent of sequence length, and a codebook loss directly supervises quantization quality. This also enables L-free inference via offline caches. (2) Multi-scale quantization: attention heads are partitioned into groups, each with its own small codebook, which reduces quantization error while keeping cache size fixed. (3) Efficient context injection: static features (e.g., item category, modality) are directly integrated, and relative position is modeled via a separable temporal kernel. All context is injected without enlarging the codebook, so cached representations remain query-independent. Experiments on three large-scale datasets (KuaiRand-1K, KuaiRec, TMALL) show that VQL consistently outperforms strong baselines, achieving higher accuracy while reducing inference latency, establishing a new state of the art in balancing accuracy and efficiency for ultra-long sequence recommendation.
- Abstract(参考訳): 大規模レコメンデーションシステムでは、超長期のユーザ行動シーケンスは、進化する関心の豊かなシグナルを符号化する。
シーケンス長の拡張は一般的に精度を向上させるが、そのようなシーケンスを本番環境で直接モデル化することはレイテンシとメモリの制約のため不可能である。
既存のソリューションは、2つのカテゴリに分類される: (1) シーケンスを切断し、L >> k のときに最も注目されるマスを破棄するトップk検索、(2) エンコーダベースの圧縮。
どちらのクラスも低損失圧縮、文脈認識、効率のバランスが良くない。
超長期動作モデリングのためのコンテキスト対応ベクトル量子化アテンションフレームワークであるVQLを提案する。
1)鍵のみの量子化:注目鍵だけが量子化され、値がそのままであり、ソフトマックス正規化がシーケンス長に依存しないエラーを生じ、コードブックの損失が直接量子化品質を監督することを示す。
これにより、オフラインキャッシュによるLフリー推論が可能になる。
2)マルチスケールの量子化:アテンションヘッドはグループに分割され,それぞれが小さなコードブックを持ち,キャッシュサイズを固定したまま,量子化エラーを低減する。
(3)効率的なコンテキストインジェクション:静的特徴(例:アイテムカテゴリ、モダリティ)を直接統合し、相対位置を分離可能な時間カーネルでモデル化する。
すべてのコンテキストはコードブックを拡大せずに注入されるため、キャッシュされた表現はクエリ非依存のままである。
3つの大規模データセット(KuaiRand-1K, KuaiRec, TMALL)の実験によると、VQLは強いベースラインを一貫して上回り、推論レイテンシを低減しつつ高い精度を実現し、超長期シーケンスレコメンデーションの正確性と効率のバランスをとる新たな最先端技術を確立している。
関連論文リスト
- InnerQ: Hardware-aware Tuning-free Quantization of KV Cache for Large Language Models [4.4248984733976275]
innerQはハードウェア対応のKVキャッシュ量子化スキームで、精度を犠牲にすることなく遅延を復号する。
内部次元上のキャッシュ行列をグループ化しながら、グループワイズ量子化を適用する。
Llamaモデルに対する評価実験により、InnerQは非量子化KVキャッシュに匹敵する数ショットのGSM8K性能を維持していることが示された。
論文 参考訳(メタデータ) (2026-02-26T16:50:36Z) - Scalable Sequential Recommendation under Latency and Memory Constraints [0.14053129774629072]
逐次リコメンデータシステムは、厳格なメモリとレイテンシの制約の下で動作しながら、長距離ユーザの振る舞いをモデル化する必要がある。
トランスフォーマーベースのアプローチは、高い精度を達成するが、二次的な注意の複雑さに悩まされる。
本稿では,属性認識の埋め込みのためのホログラフィック還元表現を組み合わせた,軽量なシーケンシャルレコメンデーションアーキテクチャであるHoloMambaRecを提案する。
論文 参考訳(メタデータ) (2026-01-13T09:16:49Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - OmniSparse: Training-Aware Fine-Grained Sparse Attention for Long-Video MLLMs [43.78743496579736]
OmniSparseは、長時間ビデオMLLMのための、トレーニング対応のきめ細かなスパークアテンションフレームワークである。
実験結果から,OmniSparseはプリフィル時の2.7倍,デコード時の2.4倍のメモリ削減を実現しつつ,全注目性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-11-15T13:14:17Z) - VecInfer: Efficient LLM Inference with Low-Bit KV Cache via Outlier-Suppressed Vector Quantization [23.781285860723248]
キーバリュー(KV)キャッシュは、大きな言語モデル(LLM)推論中にメモリオーバーヘッドを導入する。
本稿では,効率的な推論を実現しつつ,能動的KVキャッシュ圧縮のための新しいVQ手法であるVecInferを提案する。
VecInferは、長いコンテキスト理解と数学的推論タスクの両方において、既存の量子化ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-07T17:35:28Z) - QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [67.15451442018258]
拡散変換器は素晴らしいビデオ生成能力を示すが、その計算とメモリの禁止コストは実際の展開を妨げる。
モデル量子化とアテンションスパシフィケーションは圧縮に有望な2つの方向であるが、それぞれがアグレッシブ圧縮の下で深刻な性能劣化を被っている。
モデル量子化と注意散布を統合した統合フレームワークである textbfQuantSparse を提案する。
論文 参考訳(メタデータ) (2025-09-28T06:49:44Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - LongSpec: Long-Context Lossless Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
LongSpecは、長いコンテキストに対する効率的な推論の課題に対処するフレームワークである。
LongSpecは、強力なFlash Attentionベースライン上で最大3.26倍のスピードアップを達成する。
コードはhttps://github.com/sail-sg/LongSpecで公開されている。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。