論文の概要: Quantizing Intent: Cross-Domain Semantic IDs from Organic Activity for Industrial Ranking
- arxiv url: http://arxiv.org/abs/2606.01396v1
- Date: Sun, 31 May 2026 18:40:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.681339
- Title: Quantizing Intent: Cross-Domain Semantic IDs from Organic Activity for Industrial Ranking
- Title(参考訳): インテントの定量化:産業ランク付けのための有機活性からのクロスドメインセマンティックID
- Authors: Julie Choi, Haoran Ye, Zhiwei Ding, Bo Long, Benjamin Zelditch, Arpita Vats,
- Abstract要約: クロスドメインユーザ Semantic ID (SID) は、ユーザのプロファイルテキストから +0.036% AUC を得る。
残留有限スカラー量子化法であるRQ-FSQは密度埋め込み型AUCとほぼ一致する。
大規模産業広告ランキングシステムでは、コールドスタートセグメント分析は、ほぼゼロの広告インタラクション履歴を持つユーザに対して、最大1.522%の上昇を示している。
- 参考スコア(独自算出の注目度): 19.407819430079865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ads click-through rate (CTR) prediction is constrained by sparse user supervision: most users engage with ads infrequently while generating dense behavioral evidence in organic surfaces such as feed. Transferring these cross-domain signals into ads ranking is difficult due to domain mismatch, serving cost, and production complexity. We introduce cross-domain user Semantic IDs (SIDs) derived from organic feed activity and show that behavioral activity richness governs cross-domain transfer quality: SIDs from user profile text yield +0.036% AUC, SIDs from an activity-tuned LLaMA-based user embedding model yield +0.107%, and SIDs from direct feed activity behavioral embeddings yield +0.213%. We further propose RQ-FSQ, a residual finite scalar quantization method that discretizes pre-trained embeddings while matching dense-embedding AUC at substantially smaller storage. Across two heterogeneous sources, RQ-FSQ matches or slightly exceeds dense source embeddings, achieving +0.351% AUC for Feed Activity at about 30x smaller storage and +0.265% AUC for Activity-Tuned LLaMA at about 280x smaller storage. We also introduce a Hierarchical Discrete Embedding module that encodes multi-level SIDs through prefix n-gram sparse embedding tables trained end-to-end under the CTR objective. In a large-scale industrial ads ranking system, cold-start segment analysis shows gains up to +1.522% for users with near-zero ad interaction history, validating cross-domain behavioral transfer as an effective bridge for sparse-history ranking.
- Abstract(参考訳): 広告クリックスルー率(CTR)の予測は、ユーザーの監督によって制限されている。ほとんどのユーザは、フィードのような有機表面で密集した行動証拠を生成しながら、広告に頻繁に関与する。
これらのクロスドメイン信号の広告ランクへの転送は、ドメインミスマッチ、サービスコスト、生産の複雑さによって困難である。
本研究では, 有機物供給活動から派生したドメイン間ユーザセマンティックID(SID)を導入し, 行動行動の豊かさがドメイン間転送品質を左右することを示す: ユーザプロファイルテキストからのSID+0.036% AUC, アクティビティ調整LLaMAベースのユーザ埋め込みモデルからのSID+0.107%, 直接フィードの行動埋め込みからのSID+0.213%。
さらに,RQ-FSQを提案する。RQ-FSQ,RQ-FSQは,密着型AUCをかなり小さいストレージでマッチングしながら,事前学習した埋め込みを識別する。
RQ-FSQは2つの異種源にまたがって、密度の高い源の埋め込みにマッチし、フィードアクティビティのAUCを約30倍、アクティビティチューニングLLaMAのAUCを約280倍に、+0.265%を達成する。
また,CTR の目的の下で訓練されたn-gram スパース埋め込みテーブルを通じて,マルチレベル SID をエンコードする階層型離散埋め込みモジュールも導入した。
大規模産業広告ランキングシステムにおいて、コールドスタートセグメント分析は、ほぼゼロの広告インタラクション履歴を持つユーザに対して、最大で1.522%まで上昇し、ドメイン間の行動伝達がスパースヒストリーランキングの有効なブリッジとして有効であることを示す。
関連論文リスト
- AMAR: Lightweight Attention-Based Multi-User Activity Recognition from Wi-Fi CSI [15.684101182919497]
Wi-Fiベースのヒューマンアクティビティ認識(HAR)は、非接触センシングのための有望なアプローチとして登場した。
本稿では,HARを集合予測問題として定式化する,注目に基づくマルチユーザアクティビティ認識フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-20T03:09:45Z) - UniRec: Bridging the Expressive Gap between Generative and Discriminative Recommendation via Chain-of-Attribute [12.89120699793625]
Generative Recommendation (GR) reframes search and ranking as autoregressive decoding over Semantic IDs (SIDs)
p(y|f,u) によるランクは p(f|y,u) によるランクと同値であり、アイテムの特徴を自己回帰的に分解する。
提案するUniRecとChain-of-Attribute(CoA)は、その中核となるメカニズムである。CoAは、SIDを復号する前に構造化属性トークン:カテゴリ、販売者、ブランドを含む各SIDシーケンスをプレフィックスし、識別モデルが活用するアイテム側の特徴交差を復元する。
論文 参考訳(メタデータ) (2026-04-14T03:13:50Z) - FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets [64.51403245281547]
FORGEは、産業データセットを使ったジェネレーティブrEtrievalにおけるFOrmingセマンティック識別のベンチマークである。
現実世界のアプリケーションでは、オンラインコンバージェンスを半減するオフライン事前トレーニングスキーマが導入されている。
論文 参考訳(メタデータ) (2025-09-25T08:44:22Z) - FUSED-Net: Detecting Traffic Signs with Limited Data [2.111102681327218]
本稿では,交通信号検出のための高速RCNN「FUSED-Net」を提案する。
従来のアプローチとは異なり、トレーニング中にすべてのパラメータを凍結しないようにし、限られたサンプルからFUSED-Netを学習できるようにします。
1ショット,3ショット,5ショット,10ショットのシナリオでそれぞれ2.4倍,2.2倍,1.5倍,1.3倍の改善を実現しています。
論文 参考訳(メタデータ) (2024-09-23T09:34:42Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。