論文の概要: UniRec: Unified Multimodal Encoding for LLM-Based Recommendations
- arxiv url: http://arxiv.org/abs/2601.19423v2
- Date: Thu, 29 Jan 2026 13:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.324634
- Title: UniRec: Unified Multimodal Encoding for LLM-Based Recommendations
- Title(参考訳): UniRec: LLMベースのレコメンデーションのための統一マルチモーダルエンコーディング
- Authors: Zijie Lei, Tao Feng, Zhigang Hua, Yan Xie, Guanyu Lin, Shuang Yang, Ge Liu, Jiaxuan You,
- Abstract要約: 推奨機能は,テキスト,画像,分類的特徴,数値属性の4つのモードに分類する。
特に、これらの課題は、モダリティだけでなく、価格、レーティング、時間といった属性も数値でありながら、意味の異なる意味を持つため、モダリティ内でも生じます。
LLMに基づくレコメンデーションのための統一型マルチモーダルエンコーダUniRecを提案する。
- 参考スコア(独自算出の注目度): 34.599623480921444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have recently shown promise for multimodal recommendation, particularly with text and image inputs. Yet real-world recommendation signals extend far beyond these modalities. To reflect this, we formalize recommendation features into four modalities: text, images, categorical features, and numerical attributes, and highlight the unique challenges this heterogeneity poses for LLMs in understanding multimodal information. In particular, these challenges arise not only across modalities but also within them, as attributes such as price, rating, and time may all be numeric yet carry distinct semantic meanings. Beyond this intra-modality ambiguity, another major challenge is the nested structure of recommendation signals, where user histories are sequences of items, each associated with multiple attributes. To address these challenges, we propose UniRec, a unified multimodal encoder for LLM-based recommendation. UniRec first employs modality-specific encoders to produce consistent embeddings across heterogeneous signals. It then adopts a triplet representation, comprising attribute name, type, and value, to separate schema from raw inputs and preserve semantic distinctions. Finally, a hierarchical Q-Former models the nested structure of user interactions while maintaining their layered organization. Across multiple real-world benchmarks, UniRec outperforms state-of-the-art multimodal and LLM-based recommenders by up to 15%, and extensive ablation studies further validate the contributions of each component.
- Abstract(参考訳): 大規模言語モデルは、特にテキストや画像入力において、マルチモーダルレコメンデーションを約束している。
しかし、現実世界のレコメンデーションシグナルはこれらのモダリティをはるかに超えている。
そこで本論文では,レコメンデーション特徴を,テキスト,画像,分類的特徴,数値属性の4つのモーダルに形式化し,多モーダル情報を理解する上でのLLMにとっての不均一性がもたらすユニークな課題を強調した。
特に、これらの課題は、モダリティだけでなく、価格、レーティング、時間といった属性も数値でありながら、意味の異なる意味を持つため、モダリティ内でも生じます。
このモダリティ内あいまいさ以外にも、推奨信号のネスト構造には大きな課題があり、ユーザ履歴は複数の属性に関連付けられた項目のシーケンスである。
これらの課題に対処するために,LLM ベースのレコメンデーションのための統一型マルチモーダルエンコーダ UniRec を提案する。
UniRecはまず、不均一な信号に一貫した埋め込みを生成するために、モダリティ固有のエンコーダを使用する。
次に、属性名、型、値からなるトリプルト表現を採用して、生の入力からスキーマを分離し、意味的な区別を保存する。
最後に、階層的なQ-Formerは、階層化された組織を維持しながら、ユーザインタラクションのネストされた構造をモデル化します。
複数の実世界のベンチマークにおいて、UniRecは最先端のマルチモーダルとLLMベースのレコメンデータを最大15%上回っており、各コンポーネントの貢献度をさらに検証している。
関連論文リスト
- ReMatch: Boosting Representation through Matching for Multimodal Retrieval [29.610030065465793]
ReMatchはマルチモーダル検索にMLLMの生成強度を利用するフレームワークである。
組込みMLLMをチャット形式の生成マッチングステージで訓練する。
実験では, 5つのデータセットに対して, 特に強いゼロショット一般化結果を示した。
論文 参考訳(メタデータ) (2025-11-24T16:28:49Z) - Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation [9.37169920239321]
マルチモーダル・レコメンダ・システムは異種コンテンツの統合によるレコメンデーションの精度向上を目的としている。
効果はあるものの、それらの利得が真のマルチモーダル理解によるものなのか、あるいはモデルの複雑さの増加によるものなのかは定かではない。
本研究は,マルチモーダルな項目埋め込みの役割を考察し,表現の意味的情報性を強調した。
論文 参考訳(メタデータ) (2025-08-06T15:53:58Z) - M^2VAE: Multi-Modal Multi-View Variational Autoencoder for Cold-start Item Recommendation [14.644213412218742]
コールドスタートアイテムレコメンデーションはレコメンデーションシステムにおいて重要な課題である。
既存の方法は、コールドスタート問題を緩和するためにマルチモーダルコンテンツを利用する。
本稿では,属性とマルチモーダルの特徴の共通性とユニークなビューをモデル化する上での課題に対処する生成モデルを提案する。
論文 参考訳(メタデータ) (2025-08-01T09:16:26Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。
我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。
3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-03-13T13:00:31Z) - Learning Multi-Aspect Item Palette: A Semantic Tokenization Framework for Generative Recommendation [55.99632509895994]
マルチアスペクトセマンティックトークン化のための新しいアプローチであるLAMIAを紹介する。
単一の埋め込みを使用するRQ-VAEとは異なり、LAMIAは独立的でセマンティックな並列な埋め込みの集合である「アイテムパレット」を学習する。
その結果,提案手法よりも提案手法の精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-11T13:49:48Z) - Language Representations Can be What Recommenders Need: Findings and Potentials [57.90679739598295]
先進的なLM表現から線形にマッピングされた項目表現は、より優れたレコメンデーション性能が得られることを示す。
この結果は、先進言語表現空間と効果的な項目表現空間との同型性を示唆している。
本研究は,自然言語処理とリコメンデーションシステムコミュニティの両方に刺激を与える言語モデリングと行動モデリングの関連性を強調した。
論文 参考訳(メタデータ) (2024-07-07T17:05:24Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。