論文の概要: Multimodal Recommendation Dialog with Subjective Preference: A New
Challenge and Benchmark
- arxiv url: http://arxiv.org/abs/2305.18212v1
- Date: Fri, 26 May 2023 08:43:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 14:00:45.311558
- Title: Multimodal Recommendation Dialog with Subjective Preference: A New
Challenge and Benchmark
- Title(参考訳): 主観的嗜好を伴うマルチモーダルレコメンデーションダイアログ : 新しい課題とベンチマーク
- Authors: Yuxing Long, Binyuan Hui, Caixia Yuan1, Fei Huang, Yongbin Li, Xiaojie
Wang
- Abstract要約: 本稿では,SURE (Multimodal Recommendation Dialog with SUbjective Preference)を提案する。
データは、品質と多様性を保証するために、人間のアノテーションで2つのフェーズで構築されます。
SUREは、営業専門家が提案する主観的嗜好と推奨行為によく言及されている。
- 参考スコア(独自算出の注目度): 38.613625892808706
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing multimodal task-oriented dialog data fails to demonstrate the
diverse expressions of user subjective preferences and recommendation acts in
the real-life shopping scenario. This paper introduces a new dataset SURE
(Multimodal Recommendation Dialog with SUbjective PREference), which contains
12K shopping dialogs in complex store scenes. The data is built in two phases
with human annotations to ensure quality and diversity. SURE is well-annotated
with subjective preferences and recommendation acts proposed by sales experts.
A comprehensive analysis is given to reveal the distinguishing features of
SURE. Three benchmark tasks are then proposed on the data to evaluate the
capability of multimodal recommendation agents. Based on the SURE, we propose a
baseline model, powered by a state-of-the-art multimodal model, for these
tasks.
- Abstract(参考訳): 既存のマルチモーダルタスク指向のダイアログデータは、実際のショッピングシナリオにおけるユーザの主観的好みやレコメンデーション行動の多様な表現を示さない。
本稿では,複合店舗シーンにおける12Kのショッピングダイアログを含むSURE(Multimodal Recommendation Dialog with SUbjective Preference)を提案する。
データは、品質と多様性を保証するために、人間のアノテーションで2つのフェーズで構築されます。
SUREは、営業専門家が提案する主観的嗜好と推奨行為によく言及されている。
SUREの特徴を明らかにするために、包括的な分析を行う。
次に、3つのベンチマークタスクがデータに提案され、マルチモーダルレコメンデーションエージェントの能力を評価する。
SUREに基づいて,これらのタスクに対して,最先端のマルチモーダルモデルを用いたベースラインモデルを提案する。
関連論文リスト
- Ducho meets Elliot: Large-scale Benchmarks for Multimodal Recommendation [9.506245109666907]
商品やサービスを特徴付ける多面的機能は、オンライン販売プラットフォームにおいて、各顧客に影響を与える可能性がある。
一般的なマルチモーダルレコメンデーションパイプラインは、(i)マルチモーダルな特徴の抽出、(ii)レコメンデーションタスクに適したハイレベルな表現の精製、(iv)ユーザイテムスコアの予測を含む。
本論文は,マルチモーダルレコメンデータシステムに対する大規模ベンチマークを行う最初の試みとして,特にマルチモーダル抽出器に着目したものである。
論文 参考訳(メタデータ) (2024-09-24T08:29:10Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - BiVRec: Bidirectional View-based Multimodal Sequential Recommendation [55.87443627659778]
我々は,IDとマルチモーダルの両方で推薦タスクを共同で訓練する,革新的なフレームワークであるBivRecを提案する。
BivRecは5つのデータセットで最先端のパフォーマンスを達成し、様々な実用的な利点を示している。
論文 参考訳(メタデータ) (2024-02-27T09:10:41Z) - Ada-Retrieval: An Adaptive Multi-Round Retrieval Paradigm for Sequential
Recommendations [50.03560306423678]
本稿では,レコメンダシステムのための適応型マルチラウンド検索パラダイムであるAda-Retrievalを提案する。
Ada-Retrievalは、ユーザー表現を反復的に洗練し、全項目領域の潜在的な候補をよりよく捉えます。
論文 参考訳(メタデータ) (2024-01-12T15:26:40Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Application of frozen large-scale models to multimodal task-oriented
dialogue [0.0]
既存のLarge Language Models ENnhanced to See Framework(LENS Framework)を使用して、マルチモーダルタスク指向対話の実現可能性をテストする。
LENS Frameworkは、追加のトレーニングや事前訓練されたモデルの固定パラメータなしでコンピュータビジョンタスクを解く方法として提案されている。
論文 参考訳(メタデータ) (2023-10-02T01:42:28Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。