論文の概要: Personalized Showcases: Generating Multi-Modal Explanations for
Recommendations
- arxiv url: http://arxiv.org/abs/2207.00422v2
- Date: Thu, 6 Apr 2023 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 18:12:00.423207
- Title: Personalized Showcases: Generating Multi-Modal Explanations for
Recommendations
- Title(参考訳): パーソナライズされたショーケース:レコメンデーションのためのマルチモーダル説明の生成
- Authors: An Yan, Zhankui He, Jiacheng Li, Tianyang Zhang, Julian McAuley
- Abstract要約: 我々はパーソナライズされたショーケースという新しいタスクを提案し、提案するレコメンデーションを説明するために、テキスト情報と視覚情報の両方を提供する。
Google Localから大規模なデータセットを収集し、マルチモーダルな説明を生成するための高品質なサブセットを構築します。
実験により、我々のフレームワークは入力として異なるモダリティから恩恵を受けており、より多様で表現力のある説明を生み出すことができることが示された。
- 参考スコア(独自算出の注目度): 13.926067625758225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing explanation models generate only text for recommendations but still
struggle to produce diverse contents. In this paper, to further enrich
explanations, we propose a new task named personalized showcases, in which we
provide both textual and visual information to explain our recommendations.
Specifically, we first select a personalized image set that is the most
relevant to a user's interest toward a recommended item. Then, natural language
explanations are generated accordingly given our selected images. For this new
task, we collect a large-scale dataset from Google Local (i.e.,~maps) and
construct a high-quality subset for generating multi-modal explanations. We
propose a personalized multi-modal framework which can generate diverse and
visually-aligned explanations via contrastive learning. Experiments show that
our framework benefits from different modalities as inputs, and is able to
produce more diverse and expressive explanations compared to previous methods
on a variety of evaluation metrics.
- Abstract(参考訳): 既存の説明モデルは、レコメンデーションのためのテキストのみを生成するが、多様なコンテンツを生成するのに苦労している。
本稿では、さらに説明を深めるために、パーソナライズされたショーケースという新しいタスクを提案し、提案するレコメンデーションを説明するために、テキスト情報と視覚情報の両方を提供する。
具体的には、まず、推奨項目に対するユーザの関心に最も関連するパーソナライズされたイメージセットを選択する。
そして、選択した画像から自然言語の説明を生成する。
この新しいタスクでは、Google Localから大規模なデータセット(例えば—maps)を収集し、マルチモーダルな説明を生成するための高品質なサブセットを構築する。
コントラスト学習によって多様で視覚的に整合した説明を生成できるパーソナライズされたマルチモーダルフレームワークを提案する。
実験により、我々のフレームワークは入力として異なるモダリティから恩恵を受け、様々な評価指標で以前の方法と比較してより多様で表現力のある説明ができることを示した。
関連論文リスト
- Path-based summary explanations for graph recommenders -- extended version [2.2789818122188925]
そこで本稿では,ユーザやユーザグループに対して,項目レコメンデーションのセットを受信した理由を説明する要約説明を提案する。
また,効率的なグラフアルゴリズムを用いて説明を要約する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-29T13:10:03Z) - OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。
本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。
提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文 参考訳(メタデータ) (2024-06-07T06:45:28Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。
大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-07T18:59:20Z) - Multi-modal Visual Understanding with Prompts for Semantic Information
Disentanglement of Image [0.0]
プロンプト付き画像のマルチモーダル視覚的理解は、画像の意味的理解を強化するために様々な視覚的およびテキスト的手がかりを使用する。
プロンプトベースの手法を利用することで、下流タスクに有用な情報を抽出するために、モデルが画像の特定の特徴にフォーカスすることを学ぶことができる。
論文 参考訳(メタデータ) (2023-05-16T10:15:44Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Graph-based Extractive Explainer for Recommendations [38.278148661173525]
ユーザ,項目,属性,文をシームレスに統合し,抽出に基づく説明を行うグラフ注意型ニューラルネットワークモデルを開発した。
個々の文の関連性, 属性カバレッジ, 内容冗長性のバランスをとるために, 整数線形プログラミング問題を解くことにより, 文の最終的な選択を行う。
論文 参考訳(メタデータ) (2022-02-20T04:56:10Z) - Pre-training Graph Transformer with Multimodal Side Information for
Recommendation [82.4194024706817]
本稿では,項目側情報とその関連性を考慮した事前学習戦略を提案する。
我々はMCNSamplingという新しいサンプリングアルゴリズムを開発し、各項目のコンテキスト近傍を選択する。
The proposed Pre-trained Multimodal Graph Transformer (PMGT) learns item representations with two objectives: 1) graph structure reconstruction, 2) masked node feature reconstruction。
論文 参考訳(メタデータ) (2020-10-23T10:30:24Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。