論文の概要: Multi-Probe Zero Collision Hash (MPZCH): Mitigating Embedding Collisions and Enhancing Model Freshness in Large-Scale Recommenders
- arxiv url: http://arxiv.org/abs/2602.17050v1
- Date: Thu, 19 Feb 2026 03:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.620687
- Title: Multi-Probe Zero Collision Hash (MPZCH): Mitigating Embedding Collisions and Enhancing Model Freshness in Large-Scale Recommenders
- Title(参考訳): マルチプローブゼロ衝突ハッシュ(MPZCH:Multi-Probe Zero Collision Hash):大規模レコメンダにおける埋め込み衝突の緩和とモデルの鮮度向上
- Authors: Ziliang Zhao, Bi Xue, Emma Lin, Mengjiao Zhou, Kaustubh Vartak, Shakhzod Ali-Zade, Carson Lu, Tao Li, Bin Kuang, Rui Jian, Bin Wen, Dennis van der Staay, Yixin Bao, Eddy Li, Chao Deng, Songbin Liu, Qifan Wang, Kai Ren,
- Abstract要約: Multi-Probe Zero Collision Hash (MPZCH) は線形探索に基づく新しい索引付け機構である。
MPZCHは、ユーザ埋め込みのゼロ衝突を実現し、アイテム埋め込みの鮮度と品質を大幅に改善する。
このソリューションは、より広いコミュニティのためにオープンソースのTorchRecライブラリ内でリリースされている。
- 参考スコア(独自算出の注目度): 47.3074050788206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding tables are critical components of large-scale recommendation systems, facilitating the efficient mapping of high-cardinality categorical features into dense vector representations. However, as the volume of unique IDs expands, traditional hash-based indexing methods suffer from collisions that degrade model performance and personalization quality. We present Multi-Probe Zero Collision Hash (MPZCH), a novel indexing mechanism based on linear probing that effectively mitigates embedding collisions. With reasonable table sizing, it often eliminates these collisions entirely while maintaining production-scale efficiency. MPZCH utilizes auxiliary tensors and high-performance CUDA kernels to implement configurable probing and active eviction policies. By retiring obsolete IDs and resetting reassigned slots, MPZCH prevents the stale embedding inheritance typical of hash-based methods, ensuring new features learn effectively from scratch. Despite its collision-mitigation overhead, the system maintains training QPS and inference latency comparable to existing methods. Rigorous online experiments demonstrate that MPZCH achieves zero collisions for user embeddings and significantly improves item embedding freshness and quality. The solution has been released within the open-source TorchRec library for the broader community.
- Abstract(参考訳): 埋め込みテーブルは大規模レコメンデーションシステムにおいて重要な要素であり、高次のカテゴリの特徴を高密度ベクトル表現への効率的なマッピングを容易にする。
しかし、ユニークなIDの量が増えるにつれて、従来のハッシュベースの索引付け手法は、モデルの性能とパーソナライズ品質を低下させる衝突に悩まされる。
埋め込み衝突を効果的に軽減する線形探索に基づく新しいインデックス機構であるMulti-Probe Zero Collision Hash (MPZCH)を提案する。
合理的なテーブルサイズでは、プロダクションスケールの効率を維持しながら、これらの衝突を完全に排除することが多い。
MPZCHは補助テンソルと高性能CUDAカーネルを使用して、設定可能なプローブとアクティブな消去ポリシーを実装している。
古いIDを廃止し、再割り当てスロットをリセットすることで、MPZCHはハッシュベースのメソッドに典型的な古い埋め込み継承を防ぎ、新しい機能をスクラッチから効果的に学習する。
衝突軽減のオーバーヘッドにもかかわらず、システムは既存のメソッドに匹敵するトレーニングQPSと推論遅延を維持している。
厳密なオンライン実験は、MPZCHがユーザ埋め込みのゼロ衝突を実現し、アイテム埋め込みの鮮度と品質を大幅に改善することを示した。
このソリューションは、より広いコミュニティのためにオープンソースのTorchRecライブラリ内でリリースされている。
関連論文リスト
- Exploiting Discriminative Codebook Prior for Autoregressive Image Generation [54.14166700058777]
トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。
自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。
近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。
k-meansの代替として、差別的コードブック先駆者(DCPE)を提案する。
論文 参考訳(メタデータ) (2025-08-14T15:00:00Z) - Collision Avoidance Verification of Multiagent Systems with Learned Policies [9.550601011551024]
本稿では,マルチエージェントフィードバックループ(MA-NFL)の衝突回避特性を検証するための後方到達性に基づくアプローチを提案する。
私たちは多くの不確実性を説明しており、現実のシナリオとよく一致しています。
提案アルゴリズムは,MA-NFLの衝突回避アルゴリズムを模倣するエージェントを用いて,衝突回避特性を検証できることを示す。
論文 参考訳(メタデータ) (2024-03-05T20:36:26Z) - Large-Scale Distributed Learning via Private On-Device
Locality-Sensitive Hashing [11.885388917784804]
我々は、最初のプライベート、パーソナライズ、メモリ効率のLSHフレームワークを開発する。
我々のフレームワークは、各デバイスが中央ホストの助けを借りずにハッシュテーブルを生成できるようにすることで、プライバシとパーソナライズを可能にする。
我々はハッシュ関数の統計的および感度特性を幾つか証明し、我々のフレームワークが大規模リコメンデータネットワークのトレーニングに競争力があることを実験的に実証した。
論文 参考訳(メタデータ) (2023-06-05T03:33:26Z) - Efficient Pruning for Machine Learning Under Homomorphic Encryption [2.2817485071636376]
プライバシ保護機械学習(PPML)ソリューションが広く普及している。
多くの人は、モデルとデータの機密性を提供する同型暗号化(HE)に頼っているが、大きなレイテンシとメモリ要求のコストがかかる。
我々は、PPML推論のレイテンシとメモリを削減するために、タイルテンソルと呼ばれるパッキング技術の上に、新しいプルーニング手法を含むHE-PExというフレームワークを導入する。
論文 参考訳(メタデータ) (2022-07-07T15:49:24Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Learning to Collide: Recommendation System Model Compression with
Learned Hash Functions [4.6994057182972595]
ディープレコメンデーションモデルのキーとなる特徴は、埋め込みテーブルの膨大なメモリ要求である。
モデルサイズを減らすための一般的なテクニックは、すべてのカテゴリ変数識別子(ID)を小さな空間にハッシュすることである。
このハッシュにより、埋め込みテーブルに格納しなければならないユニークな表現の数が減少し、サイズが減少する。
我々は代わりに、意味的に類似したID間の衝突を促進する新しいマッピング関数であるLearned Hash Functionsを導入する。
論文 参考訳(メタデータ) (2022-03-28T06:07:30Z) - Dual Cluster Contrastive learning for Person Re-Identification [78.42770787790532]
私たちはDual Cluster Contrastive Learning(DCC)という統合クラスタコントラストフレームワークを定式化します。
DCCは、個々のメモリバンクとセントロイドクラスタメモリバンクの2種類のメモリバンクを維持している。
教師なしまたは監督されていない人物のReIDに容易に適用できる。
論文 参考訳(メタデータ) (2021-12-09T02:43:25Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Covert Model Poisoning Against Federated Learning: Algorithm Design and
Optimization [76.51980153902774]
フェデレーテッド・ラーニング(FL)はパラメータ伝達中にFLモデルに対する外部攻撃に対して脆弱である。
本稿では,最先端の防御アグリゲーション機構に対処する有効なMPアルゴリズムを提案する。
実験の結果,提案したCMPアルゴリズムは,既存の攻撃機構よりも効果的で,かなり優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。