論文の概要: Ducho meets Elliot: Large-scale Benchmarks for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2409.15857v1
- Date: Tue, 24 Sep 2024 08:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 14:58:04.958358
- Title: Ducho meets Elliot: Large-scale Benchmarks for Multimodal Recommendation
- Title(参考訳): DuchoがElliotに - マルチモーダル勧告のための大規模ベンチマーク
- Authors: Matteo Attimonelli, Danilo Danese, Angela Di Fazio, Daniele Malitesta, Claudio Pomo, Tommaso Di Noia,
- Abstract要約: 商品やサービスを特徴付ける多面的機能は、オンライン販売プラットフォームにおいて、各顧客に影響を与える可能性がある。
一般的なマルチモーダルレコメンデーションパイプラインは、(i)マルチモーダルな特徴の抽出、(ii)レコメンデーションタスクに適したハイレベルな表現の精製、(iv)ユーザイテムスコアの予測を含む。
本論文は,マルチモーダルレコメンデータシステムに対する大規模ベンチマークを行う最初の試みとして,特にマルチモーダル抽出器に着目したものである。
- 参考スコア(独自算出の注目度): 9.506245109666907
- License:
- Abstract: In specific domains like fashion, music, and movie recommendation, the multi-faceted features characterizing products and services may influence each customer on online selling platforms differently, paving the way to novel multimodal recommendation models that can learn from such multimodal content. According to the literature, the common multimodal recommendation pipeline involves (i) extracting multimodal features, (ii) refining their high-level representations to suit the recommendation task, (iii) optionally fusing all multimodal features, and (iv) predicting the user-item score. While great effort has been put into designing optimal solutions for (ii-iv), to the best of our knowledge, very little attention has been devoted to exploring procedures for (i). In this respect, the existing literature outlines the large availability of multimodal datasets and the ever-growing number of large models accounting for multimodal-aware tasks, but (at the same time) an unjustified adoption of limited standardized solutions. This motivates us to explore more extensive techniques for the (i) stage of the pipeline. To this end, this paper settles as the first attempt to offer a large-scale benchmarking for multimodal recommender systems, with a specific focus on multimodal extractors. Specifically, we take advantage of two popular and recent frameworks for multimodal feature extraction and reproducibility in recommendation, Ducho and Elliot, to offer a unified and ready-to-use experimental environment able to run extensive benchmarking analyses leveraging novel multimodal feature extractors. Results, largely validated under different hyper-parameter settings for the chosen extractors, provide important insights on how to train and tune the next generation of multimodal recommendation algorithms.
- Abstract(参考訳): ファッション、音楽、映画レコメンデーションといった特定の分野において、商品やサービスを特徴付けるマルチフェイス機能は、オンライン販売プラットフォーム上で各顧客に異なる影響を与える可能性があるため、このようなマルチモーダルコンテンツから学ぶことのできる新しいマルチモーダルレコメンデーションモデルへの道を開くことができる。
文献によると、一般的なマルチモーダルレコメンデーションパイプラインは、
(i)マルチモーダルな特徴を抽出すること
二 推薦業務に適合する高位表示を精算すること。
三 任意にすべてのマルチモーダル特徴を融合させ、
(4)ユーザイットムスコアの予測。
最適なソリューション(i-iv)の設計に多大な努力が払われてきましたが、私たちの知る限りでは、手順の探求にはほとんど注意が払われていません。
(i)。
この点に関して、既存の文献では、マルチモーダルデータセットの高可用性と、マルチモーダル対応タスクを考慮に入れた大規模モデルの増加について概説している。
これは、より広範な技術を探究する動機となります。
i)パイプラインのステージ。
そこで本論文は,マルチモーダルレコメンデータシステムに対する大規模なベンチマークを行うための最初の試みとして,特にマルチモーダル抽出器に着目したものである。
具体的には、マルチモーダル特徴抽出と再現性のための2つの人気フレームワーク、Ducho と Elliot を利用して、新しいマルチモーダル特徴抽出器を利用した広範囲なベンチマーク分析を行うことができる統一的で実用的な実験環境を提供する。
その結果、選択した抽出器の異なるハイパーパラメータ設定で大半が検証され、次世代のマルチモーダルレコメンデーションアルゴリズムのトレーニングとチューニング方法に関する重要な洞察が得られた。
関連論文リスト
- M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation [9.720586396359906]
既存のマルチモーダルレコメンダシステムは、通常、特徴抽出とモダリティモデリングの両方に分離されたプロセスを使用する。
本稿では, マルチウェイ変換器を用いて, 整列したマルチモーダル特徴を抽出するUnified Multi-modal Graph Transformer (UGT) という新しいモデルを提案する。
UGTモデルは, 一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化した場合に, 特に有意な有効性が得られることを示す。
論文 参考訳(メタデータ) (2024-07-29T11:04:31Z) - Attention-based sequential recommendation system using multimodal data [8.110978727364397]
本稿では,画像やテキスト,カテゴリといった項目のマルチモーダルなデータを用いた注意に基づくシーケンシャルレコメンデーション手法を提案する。
Amazonデータセットから得られた実験結果は,提案手法が従来の逐次レコメンデーションシステムよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T08:41:05Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Mirror Gradient: Towards Robust Multimodal Recommender Systems via
Exploring Flat Local Minima [54.06000767038741]
フラットローカルミニマの新しい視点からマルチモーダルリコメンデータシステムの解析を行う。
我々はミラーグラディエント(MG)と呼ばれる簡潔で効果的な勾配戦略を提案する。
提案したMGは、既存の堅牢なトレーニング手法を補完し、多様な高度なレコメンデーションモデルに容易に拡張できることが判明した。
論文 参考訳(メタデータ) (2024-02-17T12:27:30Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multimodal Recommendation Dialog with Subjective Preference: A New
Challenge and Benchmark [38.613625892808706]
本稿では,SURE (Multimodal Recommendation Dialog with SUbjective Preference)を提案する。
データは、品質と多様性を保証するために、人間のアノテーションで2つのフェーズで構築されます。
SUREは、営業専門家が提案する主観的嗜好と推奨行為によく言及されている。
論文 参考訳(メタデータ) (2023-05-26T08:43:46Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。