論文の概要: Real-time Indexing for Large-scale Recommendation by Streaming Vector Quantization Retriever
- arxiv url: http://arxiv.org/abs/2501.08695v1
- Date: Wed, 15 Jan 2025 10:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:51:15.035822
- Title: Real-time Indexing for Large-scale Recommendation by Streaming Vector Quantization Retriever
- Title(参考訳): ベクトル量子化レトリバーのストリーミングによる大規模レコメンデーションのためのリアルタイムインデックス作成
- Authors: Xingyan Bin, Jianfei Cui, Wujie Yan, Zhichen Zhao, Xintian Han, Chongyang Yan, Feng Zhang, Xun Zhou, Qi Wu, Zuotao Liu,
- Abstract要約: Streaming Vector Quantization Modelは検索パラダイムの新しい世代である。
ストリームVQはインデックス付きのアイテムをリアルタイムでアタッチし、即時に付与する。
軽量で実装に優しいアーキテクチャとして、ストリーミングVQがデプロイされ、DouyinとDouyin Liteのすべてのメジャーレトリバーに置き換えられた。
- 参考スコア(独自算出の注目度): 17.156348053402766
- License:
- Abstract: Retrievers, which form one of the most important recommendation stages, are responsible for efficiently selecting possible positive samples to the later stages under strict latency limitations. Because of this, large-scale systems always rely on approximate calculations and indexes to roughly shrink candidate scale, with a simple ranking model. Considering simple models lack the ability to produce precise predictions, most of the existing methods mainly focus on incorporating complicated ranking models. However, another fundamental problem of index effectiveness remains unresolved, which also bottlenecks complication. In this paper, we propose a novel index structure: streaming Vector Quantization model, as a new generation of retrieval paradigm. Streaming VQ attaches items with indexes in real time, granting it immediacy. Moreover, through meticulous verification of possible variants, it achieves additional benefits like index balancing and reparability, enabling it to support complicated ranking models as existing approaches. As a lightweight and implementation-friendly architecture, streaming VQ has been deployed and replaced all major retrievers in Douyin and Douyin Lite, resulting in remarkable user engagement gain.
- Abstract(参考訳): 最も重要なレコメンデーションステージの1つであるレトリバーは、厳格な遅延制限の下で、後段の正のサンプルを効率的に選択する責任がある。
このため、大規模システムは常に近似計算とインデックスに頼り、単純なランキングモデルで候補スケールを大まかに縮小する。
単純なモデルでは正確な予測ができないため、既存の手法のほとんどは複雑なランキングモデルの導入に重点を置いている。
しかし、インデックスの有効性に関するもう一つの根本的な問題は未解決のままであり、複雑性もボトルネックとなる。
本稿では,新しい検索パラダイムとして,ストリームベクトル量子化モデルを提案する。
ストリームVQはインデックス付きのアイテムをリアルタイムでアタッチし、即時に付与する。
さらに、可能なバリエーションを綿密に検証することで、インデックスバランシングやリペアビリティといった付加的なメリットを実現し、既存のアプローチとして複雑なランキングモデルをサポートすることができる。
軽量で実装に優しいアーキテクチャとして、ストリーミングVQがデプロイされ、DouyinとDouyin Liteのすべてのメジャーレトリバーに置き換えられた。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - UpLIF: An Updatable Self-Tuning Learned Index Framework [4.077820670802213]
UpLIFは、入ってくる更新に対応するようにモデルを調整した適応的な自己チューニング学習インデックスである。
また、モデル固有の特性を決定するバランスモデル調整の概念も導入する。
論文 参考訳(メタデータ) (2024-08-07T22:30:43Z) - LiNR: Model Based Neural Retrieval on GPUs at LinkedIn [7.7977551402289045]
LiNRはLinkedInの大規模GPUベースの検索システムである。
大規模なインデックスに対して,フルスキャンと効率的なフィルタリングを取り入れたシステム拡張について述べる。
我々は、LiNRが業界初のLive-updated model-based search indexの1つであると考えている。
論文 参考訳(メタデータ) (2024-07-18T07:04:33Z) - Faster Learned Sparse Retrieval with Block-Max Pruning [11.080810272211906]
本稿では,学習されたスパース検索環境に出現するインデックスに適した,革新的な動的プルーニング戦略であるBlock-Max Pruning(BMP)を紹介する。
BMPは既存の動的プルーニング戦略を大幅に上回り、安全な検索コンテキストにおいて非並列効率を提供する。
論文 参考訳(メタデータ) (2024-05-02T09:26:30Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。