論文の概要: Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2512.02474v1
- Date: Tue, 02 Dec 2025 07:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.75959
- Title: Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recommendation
- Title(参考訳): Q-BERT4Rec:マルチモーダルレコメンデーションのための量子セマンティックID表現学習
- Authors: Haofeng Huang, Ling Gai,
- Abstract要約: セマンティック表現と量子化モデリングを統合するシーケンシャルレコメンデーションフレームワークであるQ-Bert4Recを提案する。
当社のモデルをパブリックなAmazonベンチマークで検証し、Q-Bert4Recが多くの強力な既存手法よりも優れていることを示す。
ソースコードは公開後、GitHubで公開されます。
- 参考スコア(独自算出の注目度): 5.699357781063521
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential recommendation plays a critical role in modern online platforms such as e-commerce, advertising, and content streaming, where accurately predicting users' next interactions is essential for personalization. Recent Transformer-based methods like BERT4Rec have shown strong modeling capability, yet they still rely on discrete item IDs that lack semantic meaning and ignore rich multimodal information (e.g., text and image). This leads to weak generalization and limited interpretability. To address these challenges, we propose Q-Bert4Rec, a multimodal sequential recommendation framework that unifies semantic representation and quantized modeling. Specifically, Q-Bert4Rec consists of three stages: (1) cross-modal semantic injection, which enriches randomly initialized ID embeddings through a dynamic transformer that fuses textual, visual, and structural features; (2) semantic quantization, which discretizes fused representations into meaningful tokens via residual vector quantization; and (3) multi-mask pretraining and fine-tuning, which leverage diverse masking strategies -- span, tail, and multi-region -- to improve sequential understanding. We validate our model on public Amazon benchmarks and demonstrate that Q-Bert4Rec significantly outperforms many strong existing methods, confirming the effectiveness of semantic tokenization for multimodal sequential recommendation. Our source code will be publicly available on GitHub after publishing.
- Abstract(参考訳): シークエンシャルレコメンデーションは、電子商取引、広告、コンテンツストリーミングといった現代のオンラインプラットフォームにおいて重要な役割を担っており、ユーザの次のインタラクションを正確に予測することがパーソナライズに不可欠である。
BERT4Recのような最近のTransformerベースのメソッドは強力なモデリング機能を示しているが、セマンティックな意味を持たない離散アイテムIDに依存しており、リッチなマルチモーダル情報(テキストや画像など)を無視している。
このことは、弱一般化と限定的な解釈可能性をもたらす。
これらの課題に対処するために、意味表現と量子化モデリングを統合するマルチモーダルシーケンシャルレコメンデーションフレームワークQ-Bert4Recを提案する。
Q-Bert4Recは、(1) テキスト、視覚、構造的特徴を融合する動的トランスフォーマーを通じてランダムに初期化IDを埋め込むクロスモーダルなセマンティックインジェクション、(2) 融合した表現を残留ベクトル量子化によって意味のあるトークンに識別するセマンティック量子化、(3) マスキング戦略(スパン、テール、マルチリージョン)を活用するマルチマスク事前訓練と微調整の3段階からなる。
Q-Bert4Recは,マルチモーダルシーケンシャルレコメンデーションにおけるセマンティックトークン化の有効性を検証し,多くの既存手法よりも優れていることを示す。
ソースコードは公開後、GitHubで公開されます。
関連論文リスト
- Point Cloud Quantization through Multimodal Prompting for 3D Understanding [20.397232104616574]
本稿では,ポイントクラウド解析のための簡易なマルチモーダルプロンプト駆動量子化フレームワークを提案する。
1) 事前訓練されたモデルからのテキスト埋め込みは、視覚的意味論を本質的にエンコードする。
我々は、量子化空間を維持しながら微分可能な離散化を実現するために、Gumbel-Softmax緩和を用いる。
論文 参考訳(メタデータ) (2025-11-15T07:51:10Z) - Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation [15.818669767036592]
本稿では,2列列の量子化とセマンティックス・アウェア・シーケンス・モデリングを備えたBBQRec(Behavior-Bind Multi-modal Quantization for Sequential Recommendation)を提案する。
BBQRecは、コントラストのあるコードブック学習を通じて、ノイズの多いモダリティ特有の特徴からモダリティに依存しない行動パターンを分離する。
我々は、量子化された意味関係を用いて自己注意スコアを動的に調整する離散化類似度再重み付け機構を設計する。
論文 参考訳(メタデータ) (2025-04-09T07:19:48Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。