論文の概要: Multi-Aspect Cross-modal Quantization for Generative Recommendation
- arxiv url: http://arxiv.org/abs/2511.15122v1
- Date: Wed, 19 Nov 2025 04:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.638778
- Title: Multi-Aspect Cross-modal Quantization for Generative Recommendation
- Title(参考訳): 生成レコメンデーションのための多視点クロスモーダル量子化
- Authors: Fuwei Zhang, Xiaoyu Liu, Dongbo Xi, Jishen Yin, Huan Chen, Peng Yan, Fuzhen Zhuang, Zhao Zhang,
- Abstract要約: 生成レコメンデーション(MACRec)のための多視点クロスモーダル量子化を提案する。
まず、ID学習過程において、競合率を効果的に低減するクロスモーダル量子化を導入する。
また、暗黙のアライメントや明示的なアライメントを含むマルチアスペクトのクロスモーダルアライメントも組み込んでいます。
- 参考スコア(独自算出の注目度): 27.92632297542123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Recommendation (GR) has emerged as a new paradigm in recommender systems. This approach relies on quantized representations to discretize item features, modeling users' historical interactions as sequences of discrete tokens. Based on these tokenized sequences, GR predicts the next item by employing next-token prediction methods. The challenges of GR lie in constructing high-quality semantic identifiers (IDs) that are hierarchically organized, minimally conflicting, and conducive to effective generative model training. However, current approaches remain limited in their ability to harness multimodal information and to capture the deep and intricate interactions among diverse modalities, both of which are essential for learning high-quality semantic IDs and for effectively training GR models. To address this, we propose Multi-Aspect Cross-modal quantization for generative Recommendation (MACRec), which introduces multimodal information and incorporates it into both semantic ID learning and generative model training from different aspects. Specifically, we first introduce cross-modal quantization during the ID learning process, which effectively reduces conflict rates and thus improves codebook usability through the complementary integration of multimodal information. In addition, to further enhance the generative ability of our GR model, we incorporate multi-aspect cross-modal alignments, including the implicit and explicit alignments. Finally, we conduct extensive experiments on three well-known recommendation datasets to demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): ジェネレーティブレコメンデーション(GR)は、レコメンデーションシステムにおいて新しいパラダイムとして登場した。
このアプローチは、アイテムの特徴を識別するための量子化表現に依存し、ユーザの過去のインタラクションを離散トークンのシーケンスとしてモデル化する。
これらのトークン化されたシーケンスに基づいて、GRは次のToken予測手法を用いて次の項目を予測する。
GRの課題は、階層的に整理され、最小に矛盾し、効果的な生成モデルトレーニングに寄与する高品質なセマンティック識別子(ID)を構築することである。
しかし、現在のアプローチは、マルチモーダル情報を活用する能力と、高品質なセマンティックIDを学習し、GRモデルを効果的に訓練するために欠かせない様々なモーダル間の深い複雑な相互作用を捉える能力に限られている。
そこで本研究では,生成レコメンデーションのための多視点クロスモーダル量子化(MACRec)を提案する。
具体的には、ID学習過程におけるクロスモーダル量子化を導入し、コンフリクトレートを効果的に低減し、マルチモーダル情報の補完的な統合を通じてコードブックのユーザビリティを向上させる。
さらに、GRモデルの生成能力をさらに向上するため、暗黙的および明示的なアライメントを含む多アスペクトのクロスモーダルアライメントを組み込む。
最後に,提案手法の有効性を示すために,よく知られた3つのレコメンデーションデータセットについて広範な実験を行った。
関連論文リスト
- Generative Sequential Recommendation via Hierarchical Behavior Modeling [20.156854767000475]
本稿では,デコーダのみのバックボーン上に構築された新しい生成フレームワークGAMERを提案する。
GAMERは、振る舞い間の階層的な依存関係をキャプチャする、クロスレベルなインタラクション層を導入している。
ShortVideoADは、メインストリームのショートビデオプラットフォームからの大規模マルチビヘイビアデータセットである。
論文 参考訳(メタデータ) (2025-11-05T03:27:01Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation [16.81485354427923]
本稿では,新しいマルチモーダルトークンをトレーニングする2段階フレームワークであるMMQを提案する。
MMQは多モードのシナジー、特異性、行動適応を統一し、生成的検索と識別的ランキングタスクの両方にスケーラブルで汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-21T06:15:49Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Beyond Unimodal Boundaries: Generative Recommendation with Multimodal Semantics [46.79459036259515]
実世界のデータのリッチでマルチモーダルな性質を考えると、これは大きな制限であると言えるでしょう。
GRモデルが特に異なるモダリティに敏感であることを明らかにするとともに,有効なGRを実現する上での課題について検討する。
MGR-LF++は、異なるモダリティを表すために、対照的なモダリティアライメントと特別なトークンを利用する拡張レイトフュージョンフレームワークである。
論文 参考訳(メタデータ) (2025-03-30T06:24:43Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。