論文の概要: FusID: Modality-Fused Semantic IDs for Generative Music Recommendation
- arxiv url: http://arxiv.org/abs/2601.08764v1
- Date: Tue, 13 Jan 2026 17:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.315165
- Title: FusID: Modality-Fused Semantic IDs for Generative Music Recommendation
- Title(参考訳): FusID: 生成的音楽レコメンデーションのためのModality-Fused Semantic ID
- Authors: Haven Kim, Yupeng Hou, Julian McAuley,
- Abstract要約: 本稿では,モダリティ融合型セマンティックIDフレームワークFusIDを紹介する。
FusIDは、モダリティ間で情報を共同で符号化することで統一表現を学習する。
ゼロID競合を達成し、各トークンシーケンスが正確に1つの歌にマップされることを保証する。
- 参考スコア(独自算出の注目度): 23.744066792954445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative recommendation systems have achieved significant advances by leveraging semantic IDs to represent items. However, existing approaches that tokenize each modality independently face two critical limitations: (1) redundancy across modalities that reduces efficiency, and (2) failure to capture inter-modal interactions that limits item representation. We introduce FusID, a modality-fused semantic ID framework that addresses these limitations through three key components: (i) multimodal fusion that learns unified representations by jointly encoding information across modalities, (ii) representation learning that brings frequently co-occurring item embeddings closer while maintaining distinctiveness and preventing feature redundancy, and (iii) product quantization that converts the fused continuous embeddings into multiple discrete tokens to mitigate ID conflict. Evaluated on a multimodal next-song recommendation (i.e., playlist continuation) benchmark, FusID achieves zero ID conflicts, ensuring that each token sequence maps to exactly one song, mitigates codebook underutilization, and outperforms baselines in terms of MRR and Recall@k (k = 1, 5, 10, 20).
- Abstract(参考訳): ジェネレーティブレコメンデーションシステムは、アイテムを表現するためにセマンティックIDを活用することで、大きな進歩を遂げた。
しかし、各モダリティを独立にトークン化する既存のアプローチでは、(1)効率を低下させるモダリティ間の冗長性、(2)アイテム表現を制限するモダリティ間の相互作用を捕捉できないという2つの重要な制限に直面している。
私たちは、これらの制限に3つの重要なコンポーネントを通して対処するモダリティフューズドセマンティックIDフレームワークであるFusIDを紹介します。
一 モダリティにまたがる情報を共同で符号化することにより統一表現を学ぶマルチモーダル融合
二 特徴性を保ち、特徴冗長を防ぎつつ、頻繁な共起アイテム埋め込みをもたらす表現学習
三 融合した連続埋め込みを複数の離散トークンに変換してID衝突を緩和する積量子化。
マルチモーダルな次のsongレコメンデーション(プレイリスト継続)ベンチマークに基づいて評価され、FusIDはゼロIDコンフリクトを達成し、各トークンシーケンスが正確に1つの曲にマップされ、コードブックの未使用性を軽減し、MRRとRecall@k(k = 1, 5, 10, 20)でベースラインを上回っている。
関連論文リスト
- The Best of the Two Worlds: Harmonizing Semantic and Hash IDs for Sequential Recommendation [51.62815306481903]
我々は,SIDとHIDを調和させる新しいフレームワークであるtextbfnameを提案する。具体的には,HIDのユニークなコラボレーティブアイデンティティを保ちながら,SID内のマルチグラニュラーセマンティクスの両方をキャプチャ可能な,デュアルブランチモデリングアーキテクチャを考案する。
実世界の3つのデータセットの実験では、名前は、既存のベースラインを越えながら、頭と尾の両方の推奨品質のバランスをとる。
論文 参考訳(メタデータ) (2025-12-11T07:50:53Z) - LLaDA-Rec: Discrete Diffusion for Parallel Semantic ID Generation in Generative Recommendation [32.284624021041004]
並列なセマンティックID生成としてレコメンデーションを再構成する離散拡散フレームワークであるLLaDA-Recを提案する。
3つの実世界のデータセットの実験では、LLaDA-RecはIDベースと最先端のジェネレーティブレコメンデータの両方を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-09T07:12:15Z) - MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation [16.81485354427923]
本稿では,新しいマルチモーダルトークンをトレーニングする2段階フレームワークであるMMQを提案する。
MMQは多モードのシナジー、特異性、行動適応を統一し、生成的検索と識別的ランキングタスクの両方にスケーラブルで汎用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-21T06:15:49Z) - DAS: Dual-Aligned Semantic IDs Empowered Industrial Recommender System [15.648601380538413]
量子化とアライメントを同時に最適化する1段階のDual-Aligned Semantic ID(DAS)手法を提案する。
DASは、セマンティックIDと協調信号のより効率的なアライメントを実現しており、以下の2つの革新的なアプローチがある。
DASはKuaishou Appのさまざまな広告シナリオで成功し、毎日4億人のユーザーが利用している。
論文 参考訳(メタデータ) (2025-08-14T12:22:51Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - BBQRec: Behavior-Bind Quantization for Multi-Modal Sequential Recommendation [15.818669767036592]
本稿では,2列列の量子化とセマンティックス・アウェア・シーケンス・モデリングを備えたBBQRec(Behavior-Bind Multi-modal Quantization for Sequential Recommendation)を提案する。
BBQRecは、コントラストのあるコードブック学習を通じて、ノイズの多いモダリティ特有の特徴からモダリティに依存しない行動パターンを分離する。
我々は、量子化された意味関係を用いて自己注意スコアを動的に調整する離散化類似度再重み付け機構を設計する。
論文 参考訳(メタデータ) (2025-04-09T07:19:48Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - EAGER: Two-Stream Generative Recommender with Behavior-Semantic Collaboration [63.112790050749695]
本稿では,行動情報と意味情報の両方をシームレスに統合する新しい生成推薦フレームワークであるEAGERを紹介する。
EAGERの有効性を4つの公開ベンチマークで検証し,既存手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-20T06:21:56Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。