論文の概要: MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation
- arxiv url: http://arxiv.org/abs/2508.15281v1
- Date: Thu, 21 Aug 2025 06:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.2079
- Title: MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation
- Title(参考訳): MMQ: セマンティックID生成とユーザ行動適応のためのマルチモーダル混合量子化トークン化
- Authors: Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, Jing Zhang,
- Abstract要約: 本稿では,新しいマルチモーダルトークンをトレーニングする2段階フレームワークであるMMQを提案する。
MMQは多モードのシナジー、特異性、行動適応を統一し、生成的検索と識別的ランキングタスクの両方にスケーラブルで汎用的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 16.81485354427923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recommender systems traditionally represent items using unique identifiers (ItemIDs), but this approach struggles with large, dynamic item corpora and sparse long-tail data, limiting scalability and generalization. Semantic IDs, derived from multimodal content such as text and images, offer a promising alternative by mapping items into a shared semantic space, enabling knowledge transfer and improving recommendations for new or rare items. However, existing methods face two key challenges: (1) balancing cross-modal synergy with modality-specific uniqueness, and (2) bridging the semantic-behavioral gap, where semantic representations may misalign with actual user preferences. To address these challenges, we propose Multimodal Mixture-of-Quantization (MMQ), a two-stage framework that trains a novel multimodal tokenizer. First, a shared-specific tokenizer leverages a multi-expert architecture with modality-specific and modality-shared experts, using orthogonal regularization to capture comprehensive multimodal information. Second, behavior-aware fine-tuning dynamically adapts semantic IDs to downstream recommendation objectives while preserving modality information through a multimodal reconstruction loss. Extensive offline experiments and online A/B tests demonstrate that MMQ effectively unifies multimodal synergy, specificity, and behavioral adaptation, providing a scalable and versatile solution for both generative retrieval and discriminative ranking tasks.
- Abstract(参考訳): レコメンダシステムは伝統的にユニークな識別子(アイテムID)を使用してアイテムを表現するが、このアプローチは大規模でダイナミックなアイテムコーパスとスパースなロングテールデータと競合し、スケーラビリティと一般化を制限している。
テキストや画像などのマルチモーダルコンテンツから派生したセマンティックIDは、アイテムを共有セマンティック空間にマッピングし、知識伝達を可能にし、新しいアイテムやレアアイテムのレコメンデーションを改善することで、有望な代替手段を提供する。
しかし,既存の手法では,(1)モダリティ固有の特異性と相互の相乗効果のバランスをとること,(2)セマンティック・ビヘイビアのギャップを埋めること,という2つの課題に直面している。
これらの課題に対処するために、新しいマルチモーダルトークン化をトレーニングする2段階フレームワークであるMMQ(Multimodal Mixture-of-Quantization)を提案する。
まず、共有特定トークン化器は、直交正則化を用いて、モダリティ特化およびモダリティ共有の専門家によるマルチエキスパートアーキテクチャを活用し、包括的なマルチモーダル情報をキャプチャする。
第2に、動作認識による微調整は、マルチモーダル再構成損失を通じてモダリティ情報を保持しながら、下流推奨目的に動的にセマンティックIDを適応させる。
大規模なオフライン実験とオンラインA/Bテストにより、MMQはマルチモーダルのシナジー、特異性、行動適応を効果的に統一し、生成的検索と識別的ランキングタスクの両方にスケーラブルで汎用的なソリューションを提供することを示した。
関連論文リスト
- DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System [15.648601380538413]
量子化とアライメントを同時に最適化する1段階のDual-Aligned Semantic ID(DAS)手法を提案する。
DASは、セマンティックIDと協調信号のより効率的なアライメントを実現しており、以下の2つの革新的なアプローチがある。
DASはKuaishou Appのさまざまな広告シナリオで成功し、毎日4億人のユーザーが利用している。
論文 参考訳(メタデータ) (2025-08-14T12:22:51Z) - M^2VAE: Multi-Modal Multi-View Variational Autoencoder for Cold-start Item Recommendation [14.644213412218742]
コールドスタートアイテムレコメンデーションはレコメンデーションシステムにおいて重要な課題である。
既存の方法は、コールドスタート問題を緩和するためにマルチモーダルコンテンツを利用する。
本稿では,属性とマルチモーダルの特徴の共通性とユニークなビューをモデル化する上での課題に対処する生成モデルを提案する。
論文 参考訳(メタデータ) (2025-08-01T09:16:26Z) - Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation [15.818669767036592]
本稿では,2列列の量子化とセマンティックス・アウェア・シーケンス・モデリングを備えたBBQRec(Behavior-Bind Multi-modal Quantization for Sequential Recommendation)を提案する。
BBQRecは、コントラストのあるコードブック学習を通じて、ノイズの多いモダリティ特有の特徴からモダリティに依存しない行動パターンを分離する。
我々は、量子化された意味関係を用いて自己注意スコアを動的に調整する離散化類似度再重み付け機構を設計する。
論文 参考訳(メタデータ) (2025-04-09T07:19:48Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。
近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。
マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文 参考訳(メタデータ) (2024-12-14T06:33:53Z) - Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation [26.737971605928358]
我々はMOTORというIDのないマルチモーダルトークン表現方式を提案する。
まず、各項目のマルチモーダル特徴を離散トークンIDに識別するために、製品量子化を用いる。
次に、これらのトークンIDに対応するトークン埋め込みを暗黙のアイテム機能として解釈する。
結果として得られた表現は、元のID埋め込みを置き換え、元のマルチモーダルレコメンデータをIDフリーシステムに変換することができる。
論文 参考訳(メタデータ) (2024-10-25T03:06:10Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。