論文の概要: Learning Decomposed Contextual Token Representations from Pretrained and Collaborative Signals for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2509.10468v1
- Date: Fri, 22 Aug 2025 18:50:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.736743
- Title: Learning Decomposed Contextual Token Representations from Pretrained and Collaborative Signals for Generative Recommendation
- Title(参考訳): 生成勧告のための事前学習と協調的信号からの分解された文脈的トークン表現の学習
- Authors: Yifan Liu, Yaokun Liu, Zelin Li, Zhenrui Yue, Gyuseok Lee, Ruichen Yao, Yang Zhang, Dong Wang,
- Abstract要約: 本稿では,トークン埋め込みの適応性を高めつつ,事前学習した意味を保存する統一的なフレームワークを提案する。
3つの実世界のデータセットの実験では、DECORが推奨パフォーマンスにおいて、最先端のベースラインを一貫して上回っていることが示されている。
- 参考スコア(独自算出の注目度): 17.061613097917217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative recommenders adopt a two-stage paradigm: items are first tokenized into semantic IDs using a pretrained tokenizer, and then large language models (LLMs) are trained to generate the next item via sequence-to-sequence modeling. However, these two stages are optimized for different objectives: semantic reconstruction during tokenizer pretraining versus user interaction modeling during recommender training. This objective misalignment leads to two key limitations: (i) suboptimal static tokenization, where fixed token assignments fail to reflect diverse usage contexts; and (ii) discarded pretrained semantics, where pretrained knowledge - typically from language model embeddings - is overwritten during recommender training on user interactions. To address these limitations, we propose to learn DEcomposed COntextual Token Representations (DECOR), a unified framework that preserves pretrained semantics while enhancing the adaptability of token embeddings. DECOR introduces contextualized token composition to refine token embeddings based on user interaction context, and decomposed embedding fusion that integrates pretrained codebook embeddings with newly learned collaborative embeddings. Experiments on three real-world datasets demonstrate that DECOR consistently outperforms state-of-the-art baselines in recommendation performance. Our code will be made available upon publication.
- Abstract(参考訳): 生成レコメンデーションの最近の進歩は、2段階のパラダイムを採用している: アイテムは事前訓練されたトークン化器を使用してセマンティックIDにトークン化され、次に大きな言語モデル(LLM)が、シーケンシャル・ツー・シーケンス・モデリングによって次のアイテムを生成するために訓練される。
しかし、これらの2つのステージは異なる目的のために最適化されている。
この客観的なミスアライメントは、以下の2つの重要な制限に繋がる。
i) 固定トークン代入が多様な使用状況の反映に失敗する部分最適静的トークン化
(ii) 事前学習された知識(通常、言語モデルの埋め込みから)がユーザインタラクションの推奨トレーニング中に上書きされる、事前学習されたセマンティクスを捨てる。
これらの制約に対処するために,トークン埋め込みの適応性を高めつつ,事前学習された意味を保存した統合フレームワークであるDecomposed Contextual Token Representations (DECOR) を学習することを提案する。
DECORは、ユーザインタラクションコンテキストに基づいたトークンの埋め込みを洗練するためのコンテキスト化トークン合成を導入し、事前トレーニングされたコードブックの埋め込みと新しく学習された共同埋め込みを統合した埋め込み融合を分解する。
3つの実世界のデータセットの実験では、DECORが推奨パフォーマンスにおいて、最先端のベースラインを一貫して上回っていることが示されている。
私たちのコードは出版時に利用可能になります。
関連論文リスト
- AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。
本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。
実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文 参考訳(メタデータ) (2025-09-07T07:07:59Z) - EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration [63.112790050749695]
本稿では,行動情報と意味情報の両方をシームレスに統合する新しい生成推薦フレームワークであるEAGERを紹介する。
EAGERの有効性を4つの公開ベンチマークで検証し,既存手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-20T06:21:56Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。