論文の概要: Multi-modal Generative Models in Recommendation System
- arxiv url: http://arxiv.org/abs/2409.10993v1
- Date: Tue, 17 Sep 2024 08:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 15:26:46.513052
- Title: Multi-modal Generative Models in Recommendation System
- Title(参考訳): 推薦システムにおけるマルチモーダル生成モデル
- Authors: Arnau Ramisa, Rene Vidal, Yashar Deldjoo, Zhankui He, Julian McAuley, Anton Korikov, Scott Sanner, Mahesh Sathiamoorthy, Atoosa Kasrizadeh, Silvia Milano, Francesco Ricci,
- Abstract要約: 多くのレコメンデーションシステムは、ユーザ入力をテキスト文字列やクリックや購入などの行動信号に制限する。
生成AIの出現により、ユーザーはより豊富なレベルのインタラクションを期待するようになった。
今後のレコメンデーションシステムは、製品に対するマルチモーダルな理解の恩恵を受けるだろう、と我々は主張する。
- 参考スコア(独自算出の注目度): 34.45328907249946
- License:
- Abstract: Many recommendation systems limit user inputs to text strings or behavior signals such as clicks and purchases, and system outputs to a list of products sorted by relevance. With the advent of generative AI, users have come to expect richer levels of interactions. In visual search, for example, a user may provide a picture of their desired product along with a natural language modification of the content of the picture (e.g., a dress like the one shown in the picture but in red color). Moreover, users may want to better understand the recommendations they receive by visualizing how the product fits their use case, e.g., with a representation of how a garment might look on them, or how a furniture item might look in their room. Such advanced levels of interaction require recommendation systems that are able to discover both shared and complementary information about the product across modalities, and visualize the product in a realistic and informative way. However, existing systems often treat multiple modalities independently: text search is usually done by comparing the user query to product titles and descriptions, while visual search is typically done by comparing an image provided by the customer to product images. We argue that future recommendation systems will benefit from a multi-modal understanding of the products that leverages the rich information retailers have about both customers and products to come up with the best recommendations. In this chapter we review recommendation systems that use multiple data modalities simultaneously.
- Abstract(参考訳): 多くのレコメンデーションシステムは、ユーザ入力をテキスト文字列やクリックや購入などの行動信号に制限し、システムは関連性によって分類された製品のリストに出力する。
生成AIの出現により、ユーザーはより豊富なレベルのインタラクションを期待するようになった。
例えば、視覚検索において、ユーザは、その画像の内容の自然言語変更とともに、所望の商品の写真を提供することができる(例えば、画像に表示されるが、赤い色であるようなドレス)。
さらにユーザは、製品が自分のユースケースにどのように適合するか、例えば、衣服がどのように見えるか、家具が部屋の中でどのように見えるか、などを視覚化することによって、レコメンデーションをよりよく理解したいと思うかもしれない。
このような高度な相互作用のレベルは、モダリティを越えて製品に関する共有情報と補完情報の両方を発見し、現実的で情報的な方法で製品を視覚化できるレコメンデーションシステムを必要とする。
テキスト検索は通常、ユーザクエリを製品タイトルや記述と比較することで行われ、ビジュアル検索は通常、顧客が提供した画像と製品イメージを比較して行われる。
将来のレコメンデーションシステムは、小売業者が最高のレコメンデーションを得るために顧客と製品の両方に持つ豊富な情報を活用する製品のマルチモーダルな理解の恩恵を受けるだろう、と私たちは主張する。
本章では、複数のデータモダリティを同時に使用するレコメンデーションシステムについてレビューする。
関連論文リスト
- Attention-based sequential recommendation system using multimodal data [8.110978727364397]
本稿では,画像やテキスト,カテゴリといった項目のマルチモーダルなデータを用いた注意に基づくシーケンシャルレコメンデーション手法を提案する。
Amazonデータセットから得られた実験結果は,提案手法が従来の逐次レコメンデーションシステムよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T08:41:05Z) - MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。
まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。
次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文 参考訳(メタデータ) (2024-04-25T12:11:27Z) - Unified Vision-Language Representation Modeling for E-Commerce
Same-Style Products Retrieval [12.588713044749177]
電子商取引プラットフォームでは,同種の商品検索が重要な役割を担っている。
電子商取引同型商品検索のための統合視覚言語モデリング手法を提案する。
クロスモーダルな製品間検索、スタイル転送、ユーザ対話型検索が可能である。
論文 参考訳(メタデータ) (2023-02-10T07:24:23Z) - Talk the Walk: Synthetic Data Generation for Conversational Music
Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。
人間の収集したデータセットで100万以上の多様な会話を生成します。
論文 参考訳(メタデータ) (2023-01-27T01:54:16Z) - Deep Multi-View Learning for Tire Recommendation [0.0]
本稿では,産業データに適用されたいくつかの最先端マルチビューモデルの比較研究を提案する。
本研究は,レコメンデーションシステムにおける多視点学習の有効性を実証するものである。
論文 参考訳(メタデータ) (2022-03-23T14:43:14Z) - Knowledge-Enhanced Hierarchical Graph Transformer Network for
Multi-Behavior Recommendation [56.12499090935242]
本研究では,ユーザとレコメンデータシステムにおける項目間の多種類の対話パターンを探索する知識強化階層型グラフトランスフォーマネットワーク(KHGT)を提案する。
KHGTはグラフ構造化ニューラルネットワーク上に構築され、タイプ固有の振る舞い特性をキャプチャする。
KHGTは、様々な評価設定において、最先端のレコメンデーション手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-10-08T09:44:00Z) - What Users Want? WARHOL: A Generative Model for Recommendation [9.195173526948125]
既存のレコメンデーションモデルは、ターゲットのオーディエンスのニーズをより良くするために、新しい機能の最適な組み合わせを予測するために直接使うことはできない、と私たちは主張する。
ユーザショッピング活動の入力となる製品生成・レコメンデーションアーキテクチャであるWARHOLを開発した。
我々は、WARHOLが、与えられたユーザプロファイルに関連する全く新しい製品を生成すると同時に、最先端のレコメンデーションモデルの性能にアプローチできることを示します。
論文 参考訳(メタデータ) (2021-09-02T17:15:28Z) - An Overview of Recommender Systems and Machine Learning in Feature
Modeling and Configuration [55.67505546330206]
レコメンダーシステムおよび機械学習技術の適用に関連する潜在的な新しい研究ラインの概要を説明します。
本論文では,レコメンダーシステムと機械学習の応用例を示し,今後の研究課題について考察する。
論文 参考訳(メタデータ) (2021-02-12T17:21:36Z) - Pre-training Graph Transformer with Multimodal Side Information for
Recommendation [82.4194024706817]
本稿では,項目側情報とその関連性を考慮した事前学習戦略を提案する。
我々はMCNSamplingという新しいサンプリングアルゴリズムを開発し、各項目のコンテキスト近傍を選択する。
The proposed Pre-trained Multimodal Graph Transformer (PMGT) learns item representations with two objectives: 1) graph structure reconstruction, 2) masked node feature reconstruction。
論文 参考訳(メタデータ) (2020-10-23T10:30:24Z) - Exploiting Latent Codes: Interactive Fashion Product Generation, Similar
Image Retrieval, and Cross-Category Recommendation using Variational
Autoencoders [0.0]
著者は、インタラクティブなファッション製品アプリケーションフレームワークを構築するために、VAE(Variational Autoencoder)を使うことを提案している。
このパイプラインは、希望する製品を特定する際の直接ユーザインタラクションを可能にする、電子商取引の急成長する業界に適用できる。
論文 参考訳(メタデータ) (2020-09-02T13:27:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。