論文の概要: Multimodal Point-of-Interest Recommendation
- arxiv url: http://arxiv.org/abs/2410.03265v2
- Date: Mon, 07 Oct 2024 04:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:01:54.464908
- Title: Multimodal Point-of-Interest Recommendation
- Title(参考訳): マルチモーダルポイント・オブ・インテンシブ・レコメンデーション
- Authors: Yuta Kanzawa, Toyotaro Suzumura, Hiroki Kanezashi, Jiawei Yong, Shintaro Fukushima,
- Abstract要約: 各利用者の過去の訪問履歴に基づくレストラン推薦に焦点を当てた。
FoursquareデータセットとFoodX-251データセットから、偽のレストランチェックイン履歴データセットを作成しました。
この半マルチモーダルデータセットでトレーニングされたモデルは、画像記述なしで同じデータセットでトレーニングされた別のモデルより優れています。
- 参考スコア(独自算出の注目度): 3.019643371644899
- License:
- Abstract: Large Language Models are applied to recommendation tasks such as items to buy and news articles to read. Point of Interest is quite a new area to sequential recommendation based on language representations of multimodal datasets. As a first step to prove our concepts, we focused on restaurant recommendation based on each user's past visit history. When choosing a next restaurant to visit, a user would consider genre and location of the venue and, if available, pictures of dishes served there. We created a pseudo restaurant check-in history dataset from the Foursquare dataset and the FoodX-251 dataset by converting pictures into text descriptions with a multimodal model called LLaVA, and used a language-based sequential recommendation framework named Recformer proposed in 2023. A model trained on this semi-multimodal dataset has outperformed another model trained on the same dataset without picture descriptions. This suggests that this semi-multimodal model reflects actual human behaviours and that our path to a multimodal recommendation model is in the right direction.
- Abstract(参考訳): 大きな言語モデルは、購入するアイテムや読むニュース記事などのレコメンデーションタスクに適用される。
Point of Interestは、マルチモーダルデータセットの言語表現に基づいた、シーケンシャルなレコメンデーションのための、かなり新しい分野である。
概念を実証する第一歩として,各利用者の過去の訪問履歴に基づいたレストランレコメンデーションに着目した。
来店するレストランを選ぶと、利用者は会場のジャンルや場所を考慮し、利用可能であれば料理の写真が提供される。
FoursquareデータセットとFoodX-251データセットから、LLaVAと呼ばれるマルチモーダルモデルで画像からテキスト記述に変換することで、擬似レストランチェックイン履歴データセットを作成し、2023年に提案された言語ベースのシーケンシャルレコメンデーションフレームワークRecformerを使用しました。
この半マルチモーダルデータセットでトレーニングされたモデルは、画像記述なしで同じデータセットでトレーニングされた別のモデルより優れています。
これは、この半マルチモーダルモデルが実際の人間の振る舞いを反映し、マルチモーダルレコメンデーションモデルへの道が正しい方向にあることを示唆している。
関連論文リスト
- AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential
Recommendations [50.03560306423678]
本稿では,レコメンダシステムのための適応型マルチラウンド検索パラダイムであるAda-Retrievalを提案する。
Ada-Retrievalは、ユーザー表現を反復的に洗練し、全項目領域の潜在的な候補をよりよく捉えます。
論文 参考訳(メタデータ) (2024-01-12T15:26:40Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - MISSRec: Pre-training and Transferring Multi-modal Interest-aware
Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。
ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。
候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文 参考訳(メタデータ) (2023-08-22T04:06:56Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - Amazon-M2: A Multilingual Multi-locale Shopping Session Dataset for
Recommendation and Text Generation [127.35910314813854]
Amazon Multi-locale Shopping Sessionデータセット、すなわちAmazon-M2を提示します。
6つの異なるローカライズされた数百万のユーザセッションからなる、最初の多言語データセットである。
注目すべきは、データセットがパーソナライズとユーザの好みの理解を高めるのに役立つことだ。
論文 参考訳(メタデータ) (2023-07-19T00:08:49Z) - Multimodal Recommendation Dialog with Subjective Preference: A New
Challenge and Benchmark [38.613625892808706]
本稿では,SURE (Multimodal Recommendation Dialog with SUbjective Preference)を提案する。
データは、品質と多様性を保証するために、人間のアノテーションで2つのフェーズで構築されます。
SUREは、営業専門家が提案する主観的嗜好と推奨行為によく言及されている。
論文 参考訳(メタデータ) (2023-05-26T08:43:46Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - X-FACT: A New Benchmark Dataset for Multilingual Fact Checking [21.2633064526968]
本稿では,X-FACTについて紹介する。X-FACTは,自然に存在する実世界のクレームの事実検証のための,多言語データセットとして最大である。
データセットには25の言語で短いステートメントが含まれており、専門家のファクトチェッカーによって正確性を示すラベルが付けられている。
論文 参考訳(メタデータ) (2021-06-17T05:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。