Fugu-MT 論文翻訳(概要): Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation

論文の概要: Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation

arxiv url: http://arxiv.org/abs/2410.19276v1
Date: Fri, 25 Oct 2024 03:06:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.258333
Title: Learning ID-free Item Representation with Token Crossing for Multimodal Recommendation
Title（参考訳）: マルチモーダルレコメンデーションのためのトークン交叉によるIDフリー項目表現の学習
Authors: Kangning Zhang, Jiarui Jin, Yingjie Qin, Ruilong Su, Jianghao Lin, Yong Yu, Weinan Zhang,
Abstract要約: 我々はMOTORというIDのないマルチモーダルトークン表現方式を提案する。まず、各項目のマルチモーダル特徴を離散トークンIDに識別するために、製品量子化を用いる。次に、これらのトークンIDに対応するトークン埋め込みを暗黙のアイテム機能として解釈する。結果として得られた表現は、元のID埋め込みを置き換え、元のマルチモーダルレコメンデータをIDフリーシステムに変換することができる。
参考スコア（独自算出の注目度）: 26.737971605928358
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Current multimodal recommendation models have extensively explored the effective utilization of multimodal information; however, their reliance on ID embeddings remains a performance bottleneck. Even with the assistance of multimodal information, optimizing ID embeddings remains challenging for ID-based Multimodal Recommender when interaction data is sparse. Furthermore, the unique nature of item-specific ID embeddings hinders the information exchange among related items and the spatial requirement of ID embeddings increases with the scale of item. Based on these limitations, we propose an ID-free MultimOdal TOken Representation scheme named MOTOR that represents each item using learnable multimodal tokens and connects them through shared tokens. Specifically, we first employ product quantization to discretize each item's multimodal features (e.g., images, text) into discrete token IDs. We then interpret the token embeddings corresponding to these token IDs as implicit item features, introducing a new Token Cross Network to capture the implicit interaction patterns among these tokens. The resulting representations can replace the original ID embeddings and transform the original ID-based multimodal recommender into ID-free system, without introducing any additional loss design. MOTOR reduces the overall space requirements of these models, facilitating information interaction among related items, while also significantly enhancing the model's recommendation capability. Extensive experiments on nine mainstream models demonstrate the significant performance improvement achieved by MOTOR, highlighting its effectiveness in enhancing multimodal recommendation systems.
Abstract（参考訳）: 現在のマルチモーダルレコメンデーションモデルは、多モーダル情報の有効利用を幅広く検討しているが、ID埋め込みへの依存は依然としてパフォーマンスのボトルネックとなっている。マルチモーダル情報の助けがあっても、IDベースのマルチモーダルレコメンダでは、インタラクションデータが不足している場合、IDの埋め込みを最適化することは依然として困難である。さらに、アイテム固有のID埋め込みの独特な性質は、関連するアイテム間の情報交換を妨げ、ID埋め込みの空間的要求はアイテムの規模によって増大する。これらの制約に基づき,学習可能なマルチモーダルトークンを用いて各項目を表現し,共有トークンを介してそれらを接続する,MOTORというIDフリーなマルチモーダルトークン表現方式を提案する。具体的には,各項目のマルチモーダル特徴(画像,テキストなど)を離散トークンIDに識別するために,まず製品量子化を用いる。次に、トークンIDに対応するトークン埋め込みを暗黙的なアイテムの特徴として解釈し、トークン間の暗黙的な相互作用パターンをキャプチャする新しいトークンクロスネットワークを導入する。結果として得られた表現は、元のID埋め込みを置き換え、元のIDベースのマルチモーダルレコメンデータを、追加の損失設計を導入することなく、IDフリーシステムに変換することができる。 MOTORは、これらのモデルの全体的な空間要件を減らし、関連する項目間の情報交換を容易にし、モデルの推奨能力を大幅に強化する。 9つの主流モデルに対する大規模な実験は、MOTORが達成した大幅な性能向上を示し、マルチモーダルレコメンデーションシステムの強化の有効性を強調している。

関連論文リスト

IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
MambaPro: Multi-Modal Object Re-Identification with Mamba Aggregation and Synergistic Prompt [60.10555128510744]
ReID(Multi-modal object Re-IDentification)は、異なるモダリティから補完的な画像情報を活用することで、特定のオブジェクトを検索することを目的としている。近年、CLIPのような大規模事前学習モデルでは、従来のシングルモーダルオブジェクトReIDタスクで顕著なパフォーマンスを示している。マルチモーダルオブジェクトReIDのための新しいフレームワークであるMambaProを紹介する。
論文参考訳（メタデータ） (2024-12-14T06:33:53Z)
Multimodal Difference Learning for Sequential Recommendation [5.243083216855681]
ユーザの関心とアイテムの関係は、さまざまなモダリティによって異なる、と我々は主張する。本稿では,MDSRec のシークエンシャルレコメンデーションのための新しいマルチモーダルラーニングフレームワークを提案する。 5つの実世界のデータセットの結果は、最先端のベースラインよりもMDSRecの方が優れていることを示している。
論文参考訳（メタデータ） (2024-12-11T05:08:19Z)
CADMR: Cross-Attention and Disentangled Learning for Multimodal Recommender Systems [0.6037276428689637]
本稿では,新しいオートエンコーダに基づくマルチモーダルレコメンデータシステムCADMRを提案する。 CADMRを3つのベンチマークデータセット上で評価し,最先端の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-12-03T09:09:52Z)
All in One Framework for Multimodal Re-identification in the Wild [58.380708329455466]
オールインワン(AIO)という,ReID導入のためのマルチモーダル学習パラダイム AIOは、凍結したトレーニング済みのビッグデータをエンコーダとして利用し、追加の微調整なしに効果的なマルチモーダル検索を可能にする。クロスモーダルおよびマルチモーダルReIDの実験により、AIOは様々なモーダルデータを扱うだけでなく、困難な状況でも優れていることが明らかになった。
論文参考訳（メタデータ） (2024-05-08T01:04:36Z)
MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文参考訳（メタデータ） (2024-04-25T12:11:27Z)
Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文参考訳（メタデータ） (2024-03-15T12:44:35Z)
Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-Identification [18.01407937934588]
本稿では,素早い学習と言語モデルに基づくMP-ReID(Multi-Prompts ReID)という新しいフレームワークを提案する。 MP-ReIDは、クエリイメージを記述するために、多様で情報的、即応的な文を幻覚させることを学ぶ。明示的なプロンプトは、ChatGPTやVQAモデルといった世代モデルをアンサンブルすることで得られる。
論文参考訳（メタデータ） (2023-12-28T03:00:19Z)
ID Embedding as Subtle Features of Content and Structure for Multimodal Recommendation [13.338363107777438]
コンテンツと構造の両方の健全な特徴を高めるために,ID埋め込みを取り入れた新しいレコメンデーションモデルを提案する。提案手法は,最先端のマルチモーダルレコメンデーション手法や細粒度ID埋め込みの有効性に優れる。
論文参考訳（メタデータ） (2023-11-10T09:41:28Z)
MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文参考訳（メタデータ） (2023-08-22T04:06:56Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Dynamic Enhancement Network for Partial Multi-modality Person Re-identification [52.70235136651996]
複数のモーダルの表現能力を維持しつつ、任意のモダリティを欠くことができる新しい動的拡張ネットワーク(DENet)を設計する。欠落状態は変更可能であるため、動的拡張モジュールを設計し、欠落状態に応じて動的にモダリティ特性を適応的に向上する。
論文参考訳（メタデータ） (2023-05-25T06:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。