論文の概要: Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs
- arxiv url: http://arxiv.org/abs/2602.02338v1
- Date: Mon, 02 Feb 2026 17:00:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.311083
- Title: Rethinking Generative Recommender Tokenizer: Recsys-Native Encoding and Semantic Quantization Beyond LLMs
- Title(参考訳): Recsys-Native Encoding and Semantic Quantization over LLMs
- Authors: Yu Liang, Zhongjin Zhang, Yuxuan Zhu, Kerui Zhang, Zhiluohan Guo, Wenhang Zhou, Zonqi Yang, Kangle Wu, Yabo Ni, Anxiang Zeng, Cong Fu, Jianxin Wang, Jiazhi Xia,
- Abstract要約: ReSIDは、情報保存とシーケンシャルな予測可能性の観点から学ぶことを推奨する、原則化されたSIDフレームワークである。
高いシーケンシャルおよびSIDベースの生成ベースラインを平均10%以上上回り、トークン化コストを最大122倍削減する。
- 参考スコア(独自算出の注目度): 17.944727019161878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic ID (SID)-based recommendation is a promising paradigm for scaling sequential recommender systems, but existing methods largely follow a semantic-centric pipeline: item embeddings are learned from foundation models and discretized using generic quantization schemes. This design is misaligned with generative recommendation objectives: semantic embeddings are weakly coupled with collaborative prediction, and generic quantization is inefficient at reducing sequential uncertainty for autoregressive modeling. To address these, we propose ReSID, a recommendation-native, principled SID framework that rethinks representation learning and quantization from the perspective of information preservation and sequential predictability, without relying on LLMs. ReSID consists of two components: (i) Field-Aware Masked Auto-Encoding (FAMAE), which learns predictive-sufficient item representations from structured features, and (ii) Globally Aligned Orthogonal Quantization (GAOQ), which produces compact and predictable SID sequences by jointly reducing semantic ambiguity and prefix-conditional uncertainty. Theoretical analysis and extensive experiments across ten datasets show the effectiveness of ReSID. ReSID consistently outperforms strong sequential and SID-based generative baselines by an average of over 10%, while reducing tokenization cost by up to 122x. Code is available at https://github.com/FuCongResearchSquad/ReSID.
- Abstract(参考訳): セマンティックID(SID)ベースのレコメンデーションは、シーケンシャルなレコメンデーションシステムをスケールするための有望なパラダイムであるが、既存のメソッドは、主にセマンティック中心のパイプラインに従っている。
セマンティック埋め込みは協調予測と弱い結合であり、ジェネリック量子化は自己回帰モデリングのシーケンシャルな不確実性を減少させるのに非効率である。
本稿では,情報保存と逐次予測可能性の観点から表現学習と量子化を再考する,レコメンデーションネイティブなSIDフレームワークであるReSIDを提案する。
ReSIDは2つのコンポーネントから構成される。
一 構造化特徴量から予測十分項目表現を学習するフィールド対応マスケ自動符号化(FAMAE)
(II)グローバル配向直交量子化(GAOQ)は,意味的あいまいさとプレフィックス条件の不確かさを両立させることにより,コンパクトで予測可能なSID配列を生成する。
理論的解析と10つのデータセットにわたる広範な実験は、ReSIDの有効性を示している。
ReSIDは、高いシーケンシャルおよびSIDベースの生成ベースラインを平均10%以上上回り、トークン化コストを最大122倍削減する。
コードはhttps://github.com/FuCongResearchSquad/ReSIDで入手できる。
関連論文リスト
- PRISM: Purified Representation and Integrated Semantic Modeling for Generative Sequential Recommendation [28.629759086187352]
本稿では,PRISMとPureified RepresentationとIntegrated Semantic Modelingを組み合わせた新しい生成レコメンデーションフレームワークを提案する。
PRISMは4つの実世界のデータセットで、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-23T08:50:16Z) - Masked Diffusion for Generative Recommendation [30.8737219110446]
ジェネレーティブレコメンデーション(GR)とセマンティックID(SID)が従来のレコメンデーションアプローチに代わる有望な代替手段として登場した。
そこで我々は,マスク拡散を用いたユーザのSIDシーケンスの確率をモデル化し,学習することを提案する。
提案手法が自己回帰モデルより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-11-28T09:36:26Z) - SCoRE: Streamlined Corpus-based Relation Extraction using Multi-Label Contrastive Learning and Bayesian kNN [0.2812395851874055]
本稿では,モジュール型かつ費用対効果の高い文レベルの関係抽出システムであるSCoREを紹介する。
SCoREは簡単なPLMスイッチングを可能にし、微調整を必要とせず、多様なコーパスやKGにスムーズに適応する。
SCoREは, エネルギー消費を大幅に削減しつつ, 最先端の手法に適合するか, 超越しているかを示す。
論文 参考訳(メタデータ) (2025-07-09T14:33:07Z) - SIDE: Semantic ID Embedding for effective learning from sequences [1.2145532233226686]
シーケンスベースのレコメンデーションシステムは、産業用アドレコメンデーションシステムの最先端を推し進めている。
本稿では,ベクトル量子化(VQ)を利用して,コンパクトなセマンティックID(SID)をレコメンデーションモデルに注入する手法を提案する。
大規模産業広告推薦システムに適用した場合, 正規化エントロピー(NE)ゲインの2.4倍改善とデータフットプリントの3倍削減を実現する。
論文 参考訳(メタデータ) (2025-06-20T02:40:38Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Towards Scalable Semantic Representation for Recommendation [65.06144407288127]
大規模言語モデル(LLM)に基づく意味的IDを構築するために、Mixture-of-Codesを提案する。
提案手法は,識別性と寸法の堅牢性に優れたスケーラビリティを実現し,提案手法で最高のスケールアップ性能を実現する。
論文 参考訳(メタデータ) (2024-10-12T15:10:56Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Learnable Item Tokenization for Generative Recommendation [113.80559032128065]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - CoST: Contrastive Quantization based Semantic Tokenization for Generative Recommendation [38.97136297977874]
我々は、アイテムの関係と意味情報の両方を利用して意味的トークンを学習する、コントラッシブな量子化に基づく意味的トークン化手法CoSTを提案する。
この結果から,意味的トークン化が生成的推薦性能に与える影響が明らかとなった。
論文 参考訳(メタデータ) (2024-04-23T06:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。