論文の概要: DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling
- arxiv url: http://arxiv.org/abs/2606.04374v1
- Date: Wed, 03 Jun 2026 02:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.487592
- Title: DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling
- Title(参考訳): DSIRM:eコマース関連モデリングのためのクエリブリッジ型離散意味識別子の学習
- Authors: Bokang Wang, Xing Fang, Mingmin Jin, Jing Wang, Zhentao Song, Guangxin Song, Jianbo Zhu,
- Abstract要約: 本稿では,クエリブリッジ型コントラスト量子化手法を提案する。
一方、クエリ側で生成するLCMを探索し、テキストからアイテムSIDを明示的に予測する。
提案手法は,オフラインAUCを+1.54%改善し,より良い結果を得た。
- 参考スコア(独自算出の注目度): 3.0848956918142605
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite rapid progress of continuous embeddings for e-commerce search relevance, a long-standing open problem is the difficulty in capturing fine-grained attribute distinctions. While discrete Semantic Identifiers (SIDs) have been widely adopted as a promising alternative, existing SID generation methods rely heavily on unsupervised quantization. In realistic scenarios, the lack of explicit supervision often makes it more difficult to dictate which items should share an SID, resulting in limited capability for query-dependent ranking. To address the issue of unsupervised SIDs, we propose to explicitly model discrete relevance features and develop a Discrete Semantic Identifier Relevance Model (DSIRM). Specifically, we present a query-bridged contrastive quantization approach on the item side, injecting query-item interaction supervision into Residual Quantization to actively learn relevance-aware semantic partitions. On the other hand, we explore generative LLMs on the query side to explicitly predict item SIDs from text, resolving tail queries and intent ambiguity. Hierarchical prefix matching between query and item SIDs yields discriminative features that perfectly complement dense signals. Extensive experimental results on Tmall's production data show that our proposed approach has achieved better results, improving offline AUC by +1.54\%. Deployed via an efficient hybrid architecture, it achieves significant online lifts (+0.13\% UCTR, +0.25\% UCTCVR), proving its massive industrial value.
- Abstract(参考訳): 電子商取引の検索関連性に対する連続的な埋め込みの急速な進歩にもかかわらず、長年の未解決問題は、きめ細かい属性の区別を捉えるのが困難である。
離散セマンティック識別子(SID)は有望な代替手段として広く採用されているが、既存のSID生成法は教師なし量子化に大きく依存している。
現実的なシナリオでは、明示的な監督が欠如しているため、どの項目がSIDを共有するべきかを判断することが難しくなり、クエリ依存のランキングが制限される。
教師なしSIDの問題に対処するため,離散関連特徴を明示的にモデル化し,離散意味同定関連モデル(DSIRM)を開発することを提案する。
具体的には、クエリブリッジ型コントラスト量子化手法をアイテム側に提案し、クエリストリーム間相互作用の監視をResidual Quantizationに注入し、関連性を考慮したセマンティックパーティションを積極的に学習する。
一方、クエリ側で生成するLCMを探索し、テキストからアイテムSIDを明示的に予測し、テールクエリとインテントのあいまいさを解消する。
クエリとアイテムSID間の階層的なプレフィックスマッチングは、密集信号を完全に補完する識別的特徴をもたらす。
Tmall の生産データに対する大規模な実験結果から,提案手法によりオフライン AUC が+1.54 % 向上したことが明らかとなった。
効率的なハイブリッドアーキテクチャによってデプロイされ、大規模なオンラインリフト(+0.13\% UCTR、+0.25\% UCTCVR)を達成する。
関連論文リスト
- UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute [12.89120699793625]
Generative Recommendation (GR) reframes search and ranking as autoregressive decoding over Semantic IDs (SIDs)
p(y|f,u) によるランクは p(f|y,u) によるランクと同値であり、アイテムの特徴を自己回帰的に分解する。
提案するUniRecとChain-of-Attribute(CoA)は、その中核となるメカニズムである。CoAは、SIDを復号する前に構造化属性トークン:カテゴリ、販売者、ブランドを含む各SIDシーケンスをプレフィックスし、識別モデルが活用するアイテム側の特徴交差を復元する。
論文 参考訳(メタデータ) (2026-04-14T03:13:50Z) - Reasoning over Semantic IDs Enhances Generative Recommendation [56.83043583765322]
本稿では,SID 言語アライメントを強化することによって,SID に対する推論を実現する2段階のフレームワークを提案する。
SIDReasonerはさらに、結果駆動強化最適化によるレコメンデーション推論を改善している。
実世界の3つのデータセットに対する実験により,SIDに基づく生成推薦の有効性が示された。
論文 参考訳(メタデータ) (2026-03-24T13:31:48Z) - Explainable Semantic Textual Similarity via Dissimilar Span Detection [53.32175252285023]
テキストのペア間で意味的に異なるスパンを識別することを目的として,DSD(Dissimilar Span Detection)タスクを導入する。
これにより、ユーザーはどの特定の単語やトークンが類似度スコアに悪影響を及ぼすかを理解したり、STS依存のダウンストリームタスクのパフォーマンス向上に使用することができる。
論文 参考訳(メタデータ) (2026-03-22T11:32:31Z) - End-to-End Semantic ID Generation for Generative Advertisement Recommendation [33.453121305193434]
生成広告推薦のための統一SID生成フレームワークを提案する。
具体的には、生の広告データからエンドツーエンドで埋め込みとSIDを協調的に最適化する。
実験により、UniSIDは最先端のSID生成方法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2026-02-11T02:38:26Z) - R2LED: Equipping Retrieval and Refinement in Lifelong User Modeling with Semantic IDs for CTR Prediction [23.668401664583758]
セマンティックIDを用いた生涯ユーザモデリング(R2LED)における検索と改善のための新しいパラダイムを提案する。
まず,検索段階における複数経路混合検索手法を提案する。一方,協調的視点と意味的視点の両方から効率よく候補を検索する混合検索機構を提案する。
改良のために,経路レベル核融合のための目標認識型クロスアテンションとSIDレベル核融合のためのゲート機構を含むBiレベル核融合リファインメントを設計する。
論文 参考訳(メタデータ) (2026-02-06T11:27:20Z) - FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets [64.51403245281547]
FORGEは、産業データセットを使ったジェネレーティブrEtrievalにおけるFOrmingセマンティック識別のベンチマークである。
現実世界のアプリケーションでは、オンラインコンバージェンスを半減するオフライン事前トレーニングスキーマが導入されている。
論文 参考訳(メタデータ) (2025-09-25T08:44:22Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。