論文の概要: Multimodal Pretraining and Generation for Recommendation: A Tutorial
- arxiv url: http://arxiv.org/abs/2405.06927v1
- Date: Sat, 11 May 2024 06:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 00:30:31.791612
- Title: Multimodal Pretraining and Generation for Recommendation: A Tutorial
- Title(参考訳): 勧告のためのマルチモーダル事前学習と生成:チュートリアル
- Authors: Jieming Zhu, Chuhan Wu, Rui Zhang, Zhenhua Dong,
- Abstract要約: チュートリアルは、マルチモーダル事前学習、マルチモーダル生成、産業アプリケーションという3つの部分で構成されている。
マルチモーダル・レコメンデーションの迅速な理解を促進することを目的としており、この進化する景観の今後の発展について有意義な議論を促進することを目的としている。
- 参考スコア(独自算出の注目度): 54.07497722719509
- License:
- Abstract: Personalized recommendation stands as a ubiquitous channel for users to explore information or items aligned with their interests. Nevertheless, prevailing recommendation models predominantly rely on unique IDs and categorical features for user-item matching. While this ID-centric approach has witnessed considerable success, it falls short in comprehensively grasping the essence of raw item contents across diverse modalities, such as text, image, audio, and video. This underutilization of multimodal data poses a limitation to recommender systems, particularly in the realm of multimedia services like news, music, and short-video platforms. The recent surge in pretraining and generation techniques presents both opportunities and challenges in the development of multimodal recommender systems. This tutorial seeks to provide a thorough exploration of the latest advancements and future trajectories in multimodal pretraining and generation techniques within the realm of recommender systems. The tutorial comprises three parts: multimodal pretraining, multimodal generation, and industrial applications and open challenges in the field of recommendation. Our target audience encompasses scholars, practitioners, and other parties interested in this domain. By providing a succinct overview of the field, we aspire to facilitate a swift understanding of multimodal recommendation and foster meaningful discussions on the future development of this evolving landscape.
- Abstract(参考訳): パーソナライズされたレコメンデーションは、ユーザが自分の興味に合った情報やアイテムを探索するための、ユビキタスなチャネルである。
それでも、一般的なレコメンデーションモデルは、主にユーザとイテムのマッチングにユニークなIDとカテゴリ機能に依存している。
このID中心のアプローチは、かなりの成功を収めたものの、テキスト、画像、オーディオ、ビデオなど、さまざまなモダリティにまたがる生の項目の内容の包括的把握には至っていない。
このマルチモーダルデータの非活用は、特にニュース、音楽、ショートビデオプラットフォームといったマルチメディアサービスの領域において、レコメンデーションシステムに制限をもたらす。
近年のプレトレーニングと生成技術の増加は、マルチモーダルレコメンデータシステムの開発における機会と課題の両方を示している。
本チュートリアルは,レコメンデーションシステムの領域内でのマルチモーダル事前学習と生成技術における最新の進歩と今後の軌道の徹底的な探索を目的とする。
チュートリアルは、マルチモーダル・プレトレーニング、マルチモーダル・ジェネレーション、産業応用の3つの部分と、レコメンデーション分野におけるオープン・チャレンジからなる。
対象とする読者には、この領域に関心のある学者、実践者、その他の関係者が含まれます。
この分野の簡潔な概要を提供することで、我々は、マルチモーダルレコメンデーションの迅速な理解を促進し、この進化する風景の今後の発展に関する有意義な議論を促進することを目指している。
関連論文リスト
- Multimodal Large Language Models and Tunings: Vision, Language, Sensors, Audio, and Beyond [51.141270065306514]
このチュートリアルは、マルチモーダルAIを活用するための知識とスキルを研究者、実践者、新参者に提供することを目的としている。
最新のマルチモーダルデータセットと事前訓練されたモデル、例えばビジョンや言語以外のものについても取り上げる。
ハンズオン実験室は、最先端のマルチモーダルモデルで実践的な経験を提供する。
論文 参考訳(メタデータ) (2024-10-08T01:41:56Z) - Ducho meets Elliot: Large-scale Benchmarks for Multimodal Recommendation [9.506245109666907]
商品やサービスを特徴付ける多面的機能は、オンライン販売プラットフォームにおいて、各顧客に影響を与える可能性がある。
一般的なマルチモーダルレコメンデーションパイプラインは、(i)マルチモーダルな特徴の抽出、(ii)レコメンデーションタスクに適したハイレベルな表現の精製、(iv)ユーザイテムスコアの予測を含む。
本論文は,マルチモーダルレコメンデータシステムに対する大規模ベンチマークを行う最初の試みとして,特にマルチモーダル抽出器に着目したものである。
論文 参考訳(メタデータ) (2024-09-24T08:29:10Z) - Multi-Tower Multi-Interest Recommendation with User Representation Repel [0.9867914513513453]
本稿では,ユーザ表現を補う新しい多層多目的フレームワークを提案する。
複数の大規模産業データセットにまたがる実験結果から,提案手法の有効性と一般化性が確認された。
論文 参考訳(メタデータ) (2024-03-08T07:36:14Z) - Mirror Gradient: Towards Robust Multimodal Recommender Systems via
Exploring Flat Local Minima [54.06000767038741]
フラットローカルミニマの新しい視点からマルチモーダルリコメンデータシステムの解析を行う。
我々はミラーグラディエント(MG)と呼ばれる簡潔で効果的な勾配戦略を提案する。
提案したMGは、既存の堅牢なトレーニング手法を補完し、多様な高度なレコメンデーションモデルに容易に拡張できることが判明した。
論文 参考訳(メタデータ) (2024-02-17T12:27:30Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Recommender Systems in the Era of Large Language Models (LLMs) [62.0129013439038]
大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。
我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
論文 参考訳(メタデータ) (2023-07-05T06:03:40Z) - Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。