論文の概要: BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2504.06636v1
- Date: Wed, 09 Apr 2025 07:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:05:18.959263
- Title: BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation
- Title(参考訳): BBQRec:マルチモーダルシーケンスレコメンデーションのための振る舞いバイド量子化
- Authors: Kaiyuan Li, Rui Xiang, Yong Bai, Yongxiang Tang, Yanhua Cheng, Xialong Liu, Peng Jiang, Kun Gai,
- Abstract要約: 本稿では,2列列の量子化とセマンティックス・アウェア・シーケンス・モデリングを備えたBBQRec(Behavior-Bind Multi-modal Quantization for Sequential Recommendation)を提案する。
BBQRecは、コントラストのあるコードブック学習を通じて、ノイズの多いモダリティ特有の特徴からモダリティに依存しない行動パターンを分離する。
我々は、量子化された意味関係を用いて自己注意スコアを動的に調整する離散化類似度再重み付け機構を設計する。
- 参考スコア(独自算出の注目度): 15.818669767036592
- License:
- Abstract: Multi-modal sequential recommendation systems leverage auxiliary signals (e.g., text, images) to alleviate data sparsity in user-item interactions. While recent methods exploit large language models to encode modalities into discrete semantic IDs for autoregressive prediction, we identify two critical limitations: (1) Existing approaches adopt fragmented quantization, where modalities are independently mapped to semantic spaces misaligned with behavioral objectives, and (2) Over-reliance on semantic IDs disrupts inter-modal semantic coherence, thereby weakening the expressive power of multi-modal representations for modeling diverse user preferences. To address these challenges, we propose a Behavior-Bind multi-modal Quantization for Sequential Recommendation (BBQRec for short) featuring dual-aligned quantization and semantics-aware sequence modeling. First, our behavior-semantic alignment module disentangles modality-agnostic behavioral patterns from noisy modality-specific features through contrastive codebook learning, ensuring semantic IDs are inherently tied to recommendation tasks. Second, we design a discretized similarity reweighting mechanism that dynamically adjusts self-attention scores using quantized semantic relationships, preserving multi-modal synergies while avoiding invasive modifications to the sequence modeling architecture. Extensive evaluations across four real-world benchmarks demonstrate BBQRec's superiority over the state-of-the-art baselines.
- Abstract(参考訳): マルチモーダルシーケンシャルレコメンデーションシステムは、補助的な信号(テキスト、画像など)を活用して、ユーザとイテムのインタラクションにおけるデータの分散を緩和する。
近年の手法では,モーダルを個別のセマンティックIDにエンコードして自己回帰予測を行う手法が提案されているが,既存の手法では,動作目的と相容れないセマンティックな空間にモダリティを独立にマッピングする断片化量子化と,意味的IDへの過度な依存がモーダル間のセマンティックコヒーレンスを阻害し,多様なユーザの嗜好をモデル化するためのマルチモーダル表現の表現力を弱めるという,2つの重要な限界が指摘されている。
これらの課題に対処するために、二重整合量子化とセマンティックス・アウェア・シークエンス・モデリングを特徴とする振舞いビヘイズ・バイ・マルチモーダル・量子化法(BBQRec)を提案する。
第一に、我々の行動意味アライメントモジュールは、コントラストのあるコードブック学習を通じて、ノイズのあるモダリティ特有の特徴から、モダリティに依存しない行動パターンを分離し、セマンティックIDがリコメンデーションタスクに本質的に結びついていることを保証する。
第2に、量子化された意味関係を用いて自己注意スコアを動的に調整し、複数のモーダルな相乗効果を保ちながら、シーケンス・モデリング・アーキテクチャへの侵入的な変更を回避できる離散化された類似度再重み付け機構を設計する。
4つの実世界のベンチマークに対する大規模な評価は、BBQRecが最先端のベースラインよりも優れていることを示している。
関連論文リスト
- Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Unleash LLMs Potential for Recommendation by Coordinating Twin-Tower Dynamic Semantic Token Generator [60.07198935747619]
動的セマンティック・インデックス・パラダイムを採用した最初の生成型RSであるTTDS(Twin-Tower Dynamic Semantic Recommender)を提案する。
より具体的には、ツイン・トワー・セマンティック・トークン・ジェネレータをLLMベースのレコメンデータに統合する動的知識融合フレームワークを初めて提案する。
提案したTTDSレコメンデータは,平均19.41%のヒットレート,20.84%のNDCG測定値を実現している。
論文 参考訳(メタデータ) (2024-09-14T01:45:04Z) - Disentangling ID and Modality Effects for Session-based Recommendation [46.09367252640389]
タスクにおけるIDとモダリティの影響を解消する新しいフレームワークDIMOを提案する。
DIMOは因果推論を通じてレコメンデーションを提供し、さらに説明を生成するための2つのテンプレートを作成する。
論文 参考訳(メタデータ) (2024-04-19T15:54:46Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。