論文の概要: Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2410.19276v1
- Date: Fri, 25 Oct 2024 03:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 12:02:05.764624
- Title: Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation
- Title(参考訳): マルチモーダルレコメンデーションのためのトークン交叉によるIDフリー項目表現の学習
- Authors: Kangning Zhang, Jiarui Jin, Yingjie Qin, Ruilong Su, Jianghao Lin, Yong Yu, Weinan Zhang,
- Abstract要約: 我々はMOTORというIDのないマルチモーダルトークン表現方式を提案する。
まず、各項目のマルチモーダル特徴を離散トークンIDに識別するために、製品量子化を用いる。
次に、これらのトークンIDに対応するトークン埋め込みを暗黙のアイテム機能として解釈する。
結果として得られた表現は、元のID埋め込みを置き換え、元のマルチモーダルレコメンデータをIDフリーシステムに変換することができる。
- 参考スコア(独自算出の注目度): 26.737971605928358
- License:
- Abstract: Current multimodal recommendation models have extensively explored the effective utilization of multimodal information; however, their reliance on ID embeddings remains a performance bottleneck. Even with the assistance of multimodal information, optimizing ID embeddings remains challenging for ID-based Multimodal Recommender when interaction data is sparse. Furthermore, the unique nature of item-specific ID embeddings hinders the information exchange among related items and the spatial requirement of ID embeddings increases with the scale of item. Based on these limitations, we propose an ID-free MultimOdal TOken Representation scheme named MOTOR that represents each item using learnable multimodal tokens and connects them through shared tokens. Specifically, we first employ product quantization to discretize each item's multimodal features (e.g., images, text) into discrete token IDs. We then interpret the token embeddings corresponding to these token IDs as implicit item features, introducing a new Token Cross Network to capture the implicit interaction patterns among these tokens. The resulting representations can replace the original ID embeddings and transform the original ID-based multimodal recommender into ID-free system, without introducing any additional loss design. MOTOR reduces the overall space requirements of these models, facilitating information interaction among related items, while also significantly enhancing the model's recommendation capability. Extensive experiments on nine mainstream models demonstrate the significant performance improvement achieved by MOTOR, highlighting its effectiveness in enhancing multimodal recommendation systems.
- Abstract(参考訳): 現在のマルチモーダルレコメンデーションモデルは、多モーダル情報の有効利用を幅広く検討しているが、ID埋め込みへの依存は依然としてパフォーマンスのボトルネックとなっている。
マルチモーダル情報の助けがあっても、IDベースのマルチモーダルレコメンダでは、インタラクションデータが不足している場合、IDの埋め込みを最適化することは依然として困難である。
さらに、アイテム固有のID埋め込みの独特な性質は、関連するアイテム間の情報交換を妨げ、ID埋め込みの空間的要求はアイテムの規模によって増大する。
これらの制約に基づき,学習可能なマルチモーダルトークンを用いて各項目を表現し,共有トークンを介してそれらを接続する,MOTORというIDフリーなマルチモーダルトークン表現方式を提案する。
具体的には,各項目のマルチモーダル特徴(画像,テキストなど)を離散トークンIDに識別するために,まず製品量子化を用いる。
次に、トークンIDに対応するトークン埋め込みを暗黙的なアイテムの特徴として解釈し、トークン間の暗黙的な相互作用パターンをキャプチャする新しいトークンクロスネットワークを導入する。
結果として得られた表現は、元のID埋め込みを置き換え、元のIDベースのマルチモーダルレコメンデータを、追加の損失設計を導入することなく、IDフリーシステムに変換することができる。
MOTORは、これらのモデルの全体的な空間要件を減らし、関連する項目間の情報交換を容易にし、モデルの推奨能力を大幅に強化する。
9つの主流モデルに対する大規模な実験は、MOTORが達成した大幅な性能向上を示し、マルチモーダルレコメンデーションシステムの強化の有効性を強調している。
関連論文リスト
- All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム
AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。
クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文 参考訳(メタデータ) (2024-05-08T01:04:36Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based
Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。
MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。
明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文 参考訳(メタデータ) (2023-12-28T03:00:19Z) - ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation [13.338363107777438]
コンテンツと構造の両方の健全な特徴を高めるために,ID埋め込みを取り入れた新しいレコメンデーションモデルを提案する。
提案手法は,最先端のマルチモーダルレコメンデーション手法や細粒度ID埋め込みの有効性に優れる。
論文 参考訳(メタデータ) (2023-11-10T09:41:28Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Dynamic Enhancement Network for Partial Multi-modality Person
Re-identification [52.70235136651996]
複数のモーダルの表現能力を維持しつつ、任意のモダリティを欠くことができる新しい動的拡張ネットワーク(DENet)を設計する。
欠落状態は変更可能であるため、動的拡張モジュールを設計し、欠落状態に応じて動的にモダリティ特性を適応的に向上する。
論文 参考訳(メタデータ) (2023-05-25T06:22:01Z) - Learning Multimodal Data Augmentation in Feature Space [65.54623807628536]
LeMDAは、機能空間におけるマルチモーダルデータを共同で拡張することを自動的に学習する、使い易い方法である。
我々はLeMDAがマルチモーダルディープラーニングアーキテクチャの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。