Fugu-MT 論文翻訳(概要): Personalized Showcases: Generating Multi-Modal Explanations for Recommendations

論文の概要: Personalized Showcases: Generating Multi-Modal Explanations for Recommendations

arxiv url: http://arxiv.org/abs/2207.00422v1
Date: Thu, 30 Jun 2022 01:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-04 13:04:47.922715
Title: Personalized Showcases: Generating Multi-Modal Explanations for Recommendations
Title（参考訳）: パーソナライズされたショーケース:レコメンデーションのためのマルチモーダル説明の生成
Authors: An Yan, Zhankui He, Jiacheng Li, Tianyang Zhang, Julian McAuley
Abstract要約: 我々はパーソナライズされたショーケースという新しいタスクを提案し、提案するレコメンデーションを説明するために、テキスト情報と視覚情報の両方を提供する。 Google Localから大規模なデータセットを収集し、マルチモーダルな説明を生成するための高品質なサブセットを構築します。実験により、我々のフレームワークは入力として異なるモダリティから恩恵を受けており、より多様で表現力のある説明を生み出すことができることが示された。
参考スコア（独自算出の注目度）: 13.926067625758225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing explanation models generate only text for recommendations but still struggle to produce diverse contents. In this paper, to further enrich explanations, we propose a new task named personalized showcases, in which we provide both textual and visual information to explain our recommendations. Specifically, we first select a personalized image set that is the most relevant to a user's interest toward a recommended item. Then, natural language explanations are generated accordingly given our selected images. For this new task, we collect a large-scale dataset from Google Local (i.e.,~maps) and construct a high-quality subset for generating multi-modal explanations. We propose a personalized multi-modal framework which can generate diverse and visually-aligned explanations via contrastive learning. Experiments show that our framework benefits from different modalities as inputs, and is able to produce more diverse and expressive explanations compared to previous methods on a variety of evaluation metrics.
Abstract（参考訳）: 既存の説明モデルは、レコメンデーションのためのテキストのみを生成するが、多様なコンテンツを生成するのに苦労している。本稿では、さらに説明を深めるために、パーソナライズされたショーケースという新しいタスクを提案し、提案するレコメンデーションを説明するために、テキスト情報と視覚情報の両方を提供する。具体的には、まず、推奨項目に対するユーザの関心に最も関連するパーソナライズされたイメージセットを選択する。そして、選択した画像から自然言語の説明を生成する。この新しいタスクでは、Google Localから大規模なデータセット(例えば—maps)を収集し、マルチモーダルな説明を生成するための高品質なサブセットを構築する。コントラスト学習によって多様で視覚的に整合した説明を生成できるパーソナライズされたマルチモーダルフレームワークを提案する。実験により、我々のフレームワークは入力として異なるモダリティから恩恵を受け、様々な評価指標で以前の方法と比較してより多様で表現力のある説明ができることを示した。

関連論文リスト

MSCRS: Multi-modal Semantic Graph Prompt Learning Framework for Conversational Recommender Systems [15.792566559456422]
Conversational Recommender Systems (CRS)は、会話を通じてユーザと対話することでパーソナライズされたレコメンデーションを提供することを目的としている。我々はMSCRSと呼ばれるCRSのためのマルチモーダルなセマンティックグラフプロンプト学習フレームワークを提案する。提案手法は項目推薦の精度を大幅に向上させ,応答生成においてより自然で文脈的に関連のあるコンテンツを生成する。
論文参考訳（メタデータ） (2025-04-15T07:05:22Z)
Object-level Visual Prompts for Compositional Image Generation [75.6085388740087]
テキストから画像への拡散モデルにおいて,オブジェクトレベルの視覚的プロンプトを構成する手法を提案する。このタスクにおける重要な課題は、入力された視覚的プロンプトで表現されたオブジェクトのアイデンティティを保持することである。我々は、キーと値が異なる視覚的表現から学習される新しいKV混合のクロスアテンション機構を導入する。
論文参考訳（メタデータ） (2025-01-02T18:59:44Z)
Path-based summary explanations for graph recommenders -- extended version [2.2789818122188925]
そこで本稿では,ユーザやユーザグループに対して,項目レコメンデーションのセットを受信した理由を説明する要約説明を提案する。また,効率的なグラフアルゴリズムを用いて説明を要約する新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-29T13:10:03Z)
OVMR: Open-Vocabulary Recognition with Multi-Modal References [96.21248144937627]
既存の研究では、モデルにカテゴリキューを埋め込む方法がいくつか提案されている。本稿では,テキスト記述と模範画像からなるマルチモーダル手がかりを参考に,異なる視点からオープン語彙認識に取り組む。提案したOVMRはプラグイン・アンド・プレイモジュールであり、インターネットからランダムにクロールされた典型的な画像とうまく機能する。
論文参考訳（メタデータ） (2024-06-07T06:45:28Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。画像生成のための*multi-modal instruction*を導入する。画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文参考訳（メタデータ） (2024-01-03T19:31:58Z)
Generating Illustrated Instructions [41.613203340244155]
ユーザのニーズに合わせてカスタマイズされた視覚的指示を,図形命令を生成する新しいタスクを導入する。大規模言語モデル(LLM)のパワーと強力なテキスト・画像生成拡散モデルを組み合わせることで,StackedDiffusionと呼ばれるシンプルなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-07T18:59:20Z)
Multi-modal Visual Understanding with Prompts for Semantic Information Disentanglement of Image [0.0]
プロンプト付き画像のマルチモーダル視覚的理解は、画像の意味的理解を強化するために様々な視覚的およびテキスト的手がかりを使用する。プロンプトベースの手法を利用することで、下流タスクに有用な情報を抽出するために、モデルが画像の特定の特徴にフォーカスすることを学ぶことができる。
論文参考訳（メタデータ） (2023-05-16T10:15:44Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Graph-based Extractive Explainer for Recommendations [38.278148661173525]
ユーザ,項目,属性,文をシームレスに統合し,抽出に基づく説明を行うグラフ注意型ニューラルネットワークモデルを開発した。個々の文の関連性, 属性カバレッジ, 内容冗長性のバランスをとるために, 整数線形プログラミング問題を解くことにより, 文の最終的な選択を行う。
論文参考訳（メタデータ） (2022-02-20T04:56:10Z)
Pre-training Graph Transformer with Multimodal Side Information for Recommendation [82.4194024706817]
本稿では,項目側情報とその関連性を考慮した事前学習戦略を提案する。我々はMCNSamplingという新しいサンプリングアルゴリズムを開発し、各項目のコンテキスト近傍を選択する。 The proposed Pre-trained Multimodal Graph Transformer (PMGT) learns item representations with two objectives: 1) graph structure reconstruction, 2) masked node feature reconstruction。
論文参考訳（メタデータ） (2020-10-23T10:30:24Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。