論文の概要: Pre-training Generative Recommender with Multi-Identifier Item Tokenization
- arxiv url: http://arxiv.org/abs/2504.04400v2
- Date: Mon, 14 Apr 2025 02:51:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:46:18.640952
- Title: Pre-training Generative Recommender with Multi-Identifier Item Tokenization
- Title(参考訳): マルチ識別子アイテムトークン化による事前学習生成レコメンダ
- Authors: Bowen Zheng, Enze Liu, Zhongfu Chen, Zhongrui Ma, Yue Wang, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: 本稿では, MTGRecを用いて, 生成Recommender事前学習のためのトークンシーケンスデータを拡張する手法を提案する。
このアプローチには、マルチアイデンティティーアイテムトークン化とカリキュラムレコメンデータ事前トレーニングという、2つの重要なイノベーションがあります。
3つの公開ベンチマークデータセットに対する大規模な実験は、MTGRecが従来の推奨基準と生成推奨基準の両方を大きく上回っていることを示している。
- 参考スコア(独自算出の注目度): 78.87007819266957
- License:
- Abstract: Generative recommendation autoregressively generates item identifiers to recommend potential items. Existing methods typically adopt a one-to-one mapping strategy, where each item is represented by a single identifier. However, this scheme poses issues, such as suboptimal semantic modeling for low-frequency items and limited diversity in token sequence data. To overcome these limitations, we propose MTGRec, which leverages Multi-identifier item Tokenization to augment token sequence data for Generative Recommender pre-training. Our approach involves two key innovations: multi-identifier item tokenization and curriculum recommender pre-training. For multi-identifier item tokenization, we leverage the RQ-VAE as the tokenizer backbone and treat model checkpoints from adjacent training epochs as semantically relevant tokenizers. This allows each item to be associated with multiple identifiers, enabling a single user interaction sequence to be converted into several token sequences as different data groups. For curriculum recommender pre-training, we introduce a curriculum learning scheme guided by data influence estimation, dynamically adjusting the sampling probability of each data group during recommender pre-training. After pre-training, we fine-tune the model using a single tokenizer to ensure accurate item identification for recommendation. Extensive experiments on three public benchmark datasets demonstrate that MTGRec significantly outperforms both traditional and generative recommendation baselines in terms of effectiveness and scalability.
- Abstract(参考訳): 生成レコメンデーションは、潜在的アイテムを推薦するアイテム識別子を自動的に生成する。
既存のメソッドは通常、1対1のマッピング戦略を採用し、各アイテムは1つの識別子で表現される。
しかし、このスキームは、低周波項目の最適部分意味モデリングやトークンシーケンスデータの多様性の制限といった問題を引き起こす。
これらの制約を克服するため,MTGRecを提案する。
このアプローチには、マルチアイデンティティーアイテムトークン化とカリキュラムレコメンデータ事前トレーニングという、2つの重要なイノベーションがあります。
多元認証項目トークン化では、RQ-VAEをトークン化バックボーンとして利用し、隣接するトレーニングエポックからのモデルチェックポイントを意味的に関連するトークン化として扱う。
これにより、各アイテムを複数の識別子に関連付けることができ、単一のユーザインタラクションシーケンスを異なるデータグループとして複数のトークンシーケンスに変換することができる。
カリキュラム推薦者事前学習には、データ影響推定によって導かれるカリキュラム学習方式を導入し、推薦者事前学習中に各データ群のサンプリング確率を動的に調整する。
事前トレーニング後、単一トークンーを使用してモデルを微調整し、推奨項目の正確な識別を確実にする。
3つの公開ベンチマークデータセットに対する大規模な実験は、MTGRecが従来の推奨ベースラインと生成推奨ベースラインの両方を、有効性とスケーラビリティという点で著しく上回っていることを示している。
関連論文リスト
- Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - STORE: Streamlining Semantic Tokenization and Generative Recommendation with A Single LLM [59.08493154172207]
本稿では,意味的トークン化と生成的レコメンデーションプロセスを合理化する統合フレームワークを提案する。
我々は,意味的トークン化をテキスト・ツー・ケントタスクとして定式化し,生成的推薦をトークン・ツー・ケントタスクとして,トークン・ツー・ケント・コンストラクションタスクとテキスト・ツー・ケント補助タスクで補足する。
これらのタスクはすべて生成的な方法でフレーム化され、単一の大規模言語モデル(LLM)バックボーンを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - Recommender Systems with Generative Retrieval [58.454606442670034]
本稿では,対象候補の識別子を自己回帰的に復号する新たな生成検索手法を提案する。
そのために、各項目のセマンティックIDとして機能するために、意味論的に意味のあるコードワードを作成します。
提案手法を用いて学習した推薦システムは,様々なデータセット上での現在のSOTAモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-08T21:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。