論文の概要: CEMG: Collaborative-Enhanced Multimodal Generative Recommendation
- arxiv url: http://arxiv.org/abs/2512.21543v1
- Date: Thu, 25 Dec 2025 07:28:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:51:30.675742
- Title: CEMG: Collaborative-Enhanced Multimodal Generative Recommendation
- Title(参考訳): CEMG:コラボレーティブ強化マルチモーダルジェネレーティブレコメンデーション
- Authors: Yuzhen Lin, Hongyi Chen, Xuanjing Chen, Shaowen Wang, Ivonne Xu, Dongming Jiang,
- Abstract要約: 協調型マルチモーダル生成推薦フレームワークを提案する。
本手法では,視覚的特徴とテキスト的特徴を動的に統合するマルチモーダル・フュージョン・レイヤを特徴とする。
End-to-End Generative Recommendationの段階では、大きな言語モデルを微調整して、これらのアイテムコードを自動回帰的に生成する。
- 参考スコア(独自算出の注目度): 7.073050704685486
- License:
- Abstract: Generative recommendation models often struggle with two key challenges: (1) the superficial integration of collaborative signals, and (2) the decoupled fusion of multimodal features. These limitations hinder the creation of a truly holistic item representation. To overcome this, we propose CEMG, a novel Collaborative-Enhaned Multimodal Generative Recommendation framework. Our approach features a Multimodal Fusion Layer that dynamically integrates visual and textual features under the guidance of collaborative signals. Subsequently, a Unified Modality Tokenization stage employs a Residual Quantization VAE (RQ-VAE) to convert this fused representation into discrete semantic codes. Finally, in the End-to-End Generative Recommendation stage, a large language model is fine-tuned to autoregressively generate these item codes. Extensive experiments demonstrate that CEMG significantly outperforms state-of-the-art baselines.
- Abstract(参考訳): ジェネレーティブ・レコメンデーション・モデルは,(1)協調信号の表層統合,(2)マルチモーダル特徴の分離融合という2つの重要な課題に悩まされることが多い。
これらの制限は、真の全体論的な項目表現の作成を妨げる。
そこで我々は,協調型マルチモーダル生成レコメンデーションフレームワークCEMGを提案する。
本手法では,協調信号の誘導の下で視覚的特徴とテキスト的特徴を動的に統合するマルチモーダル・フュージョン・レイヤを特徴とする。
その後、統一Modality Tokenizationステージでは、Residual Quantization VAE (RQ-VAE) を使用して、この融合表現を個別のセマンティックコードに変換する。
最後に、End-to-End Generative Recommendationの段階では、大きな言語モデルを微調整して、これらのアイテムコードを自動回帰的に生成する。
大規模な実験により、CEMGは最先端のベースラインを著しく上回ることが示された。
関連論文リスト
- Enhancing Multimodal Recommendations with Vision-Language Models and Information-Aware Fusion [11.914081442317494]
VIRALは、Vision-Language and Information-Aware Recommendationフレームワークである。
意味的に整合した画像表現のための、きめ細かいタイトル誘導記述を生成する。
3つのAmazonデータセットの実験によると、VIRALは強いマルチモーダルベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-03T23:01:27Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Multi-modal Mutual-Guidance Conditional Prompt Learning for Vision-Language Models [21.20658517302458]
MuGCP (Multi-modal Mutual-Guidance Conditional Prompt Learning) は、条件付きプロンプト生成のための新しいパラダイムである。
AMGモジュールはVisual Conditional Prompts (VCP)を生成し、マルチモーダルタスクにおけるモデルの性能を向上させる。
MPFメカニズムは、SCPとVCPを文脈的プロンプトと統合し、シームレスな調整を保証する。
論文 参考訳(メタデータ) (2025-07-11T08:45:27Z) - Gated Multimodal Graph Learning for Personalized Recommendation [9.466822984141086]
マルチモーダルレコメンデーションは、協調フィルタリングにおけるコールドスタートとスパーシリティの問題を軽減するための有望なソリューションとして登場した。
グラフベースユーザモデリングと適応型マルチモーダルアイテムエンコーディングを組み合わせた軽量かつモジュール化されたレコメンデーションフレームワーク RLMultimodalRec を提案する。
論文 参考訳(メタデータ) (2025-05-30T16:57:17Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。