Fugu-MT 論文翻訳(概要): A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation

論文の概要: A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation

arxiv url: http://arxiv.org/abs/2407.19886v1
Date: Mon, 29 Jul 2024 11:04:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 14:06:25.718992
Title: A Unified Graph Transformer for Overcoming Isolations in Multi-modal Recommendation
Title（参考訳）: マルチモーダルレコメンデーションにおける孤立を克服するための統一グラフ変換器
Authors: Zixuan Yi, Iadh Ounis,
Abstract要約: 既存のマルチモーダルレコメンダシステムは、通常、特徴抽出とモダリティモデリングの両方に分離されたプロセスを使用する。本稿では, マルチウェイ変換器を用いて, 整列したマルチモーダル特徴を抽出するUnified Multi-modal Graph Transformer (UGT) という新しいモデルを提案する。 UGTモデルは, 一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化した場合に, 特に有意な有効性が得られることを示す。
参考スコア（独自算出の注目度）: 9.720586396359906
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid development of online multimedia services, especially in e-commerce platforms, there is a pressing need for personalised recommendation systems that can effectively encode the diverse multi-modal content associated with each item. However, we argue that existing multi-modal recommender systems typically use isolated processes for both feature extraction and modality modelling. Such isolated processes can harm the recommendation performance. Firstly, an isolated extraction process underestimates the importance of effective feature extraction in multi-modal recommendations, potentially incorporating non-relevant information, which is harmful to item representations. Second, an isolated modality modelling process produces disjointed embeddings for item modalities due to the individual processing of each modality, which leads to a suboptimal fusion of user/item representations for effective user preferences prediction. We hypothesise that the use of a unified model for addressing both aforementioned isolated processes will enable the consistent extraction and cohesive fusion of joint multi-modal features, thereby enhancing the effectiveness of multi-modal recommender systems. In this paper, we propose a novel model, called Unified Multi-modal Graph Transformer (UGT), which firstly leverages a multi-way transformer to extract aligned multi-modal features from raw data for top-k recommendation. Subsequently, we build a unified graph neural network in our UGT model to jointly fuse the user/item representations with their corresponding multi-modal features. Using the graph transformer architecture of our UGT model, we show that the UGT model can achieve significant effectiveness gains, especially when jointly optimised with the commonly-used multi-modal recommendation losses.
Abstract（参考訳）: オンラインマルチメディアサービスの急速な発展、特にeコマースプラットフォームでは、各商品に関連する多様なマルチモーダルコンテンツを効果的にエンコードできるパーソナライズされたレコメンデーションシステムの必要性が高まっている。しかし,既存のマルチモーダルレコメンデータシステムは,特徴抽出とモダリティモデリングの両方に分離プロセスを使用するのが一般的である。このような分離されたプロセスはレコメンデーションパフォーマンスを損なう可能性がある。まず,複数モーダルレコメンデーションにおける効果的な特徴抽出の重要性を過小評価し,項目表現に有害な非関連情報を組み込むことが考えられる。第2に、分離されたモダリティモデリングプロセスは、各モダリティの個別処理によるアイテムモダリティの非結合な埋め込みを生成する。上記の分離プロセスの両処理に統一モデルを用いることで,結合型マルチモーダル特徴の一貫した抽出と凝集融合が可能となり,マルチモーダルレコメンデータシステムの有効性が向上する,という仮説を立てる。本稿では,UGT(Unified Multi-modal Graph Transformer)と呼ばれる新しいモデルを提案する。その後、UGTモデルに統一グラフニューラルネットワークを構築し、ユーザ/イテム表現と対応するマルチモーダル特徴を融合する。 UGTモデルのグラフトランスフォーマーアーキテクチャを用いて、UGTモデルが特に一般的に使用されるマルチモーダルレコメンデーション損失と共同最適化された場合、大きな効果を得られることを示す。

関連論文リスト

MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。 MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文参考訳（メタデータ） (2025-02-03T08:50:00Z)
QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou [23.818456863262494]
異なる下流モデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズするための定量的なマルチモーダルフレームワークを導入する。ダウンストリームタスクの利用における2つの難題に着想を得て、異なるダウンストリームモデルに対して、専門的で訓練可能なマルチモーダル情報をカスタマイズする定量的なマルチモーダルフレームワークを導入する。
論文参考訳（メタデータ） (2024-11-18T17:08:35Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
本稿では,MLLMのマルチモーダル推論能力を高めるための選好最適化プロセスを提案する。我々は,マルチモーダルCoT性能を向上する,MPO(Mixed Preference Optimization)と呼ばれるシンプルで効果的な手法を開発した。我々のモデルであるInternVL2-8B-MPOは、MathVista上で67.0の精度を実現し、InternVL2-8Bを8.7ポイント上回り、10倍のInternVL2-76Bに匹敵する性能を達成する。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
Ducho meets Elliot: Large-scale Benchmarks for Multimodal Recommendation [9.506245109666907]
商品やサービスを特徴付ける多面的機能は、オンライン販売プラットフォームにおいて、各顧客に影響を与える可能性がある。一般的なマルチモーダルレコメンデーションパイプラインは、(i)マルチモーダルな特徴の抽出、(ii)レコメンデーションタスクに適したハイレベルな表現の精製、(iv)ユーザイテムスコアの予測を含む。本論文は,マルチモーダルレコメンデータシステムに対する大規模ベンチマークを行う最初の試みとして,特にマルチモーダル抽出器に着目したものである。
論文参考訳（メタデータ） (2024-09-24T08:29:10Z)
Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-07T15:56:03Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
MMGRec: Multimodal Generative Recommendation with Transformer Model [81.61896141495144]
MMGRecは、マルチモーダルレコメンデーションに生成パラダイムを導入することを目指している。まず,階層的な量子化手法であるGraph CF-RQVAEを考案し,各項目にRec-IDを割り当てる。次に、Transformerベースのレコメンデータをトレーニングし、過去のインタラクションシーケンスに基づいて、ユーザが推奨するアイテムのRec-IDを生成する。
論文参考訳（メタデータ） (2024-04-25T12:11:27Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
MISSRec: Pre-training and Transferring Multi-modal Interest-aware Sequence Representation for Recommendation [61.45986275328629]
逐次レコメンデーションのためのマルチモーダル事前学習・転送学習フレームワークであるMISSRecを提案する。ユーザ側ではトランスフォーマーベースのエンコーダデコーダモデルを設計し、コンテキストエンコーダがシーケンスレベルのマルチモーダルユーザ興味を捉えることを学習する。候補項目側では,ユーザ適応項目表現を生成するために動的融合モジュールを採用する。
論文参考訳（メタデータ） (2023-08-22T04:06:56Z)
Multimodal E-Commerce Product Classification Using Hierarchical Fusion [0.0]
提案手法は,本課題における一助モデルの性能と類似モデルの性能を有意に向上させた。我々は,複数のヒューズ技術を用いて実験を行い,単一モーダルネットワークの個別埋め込みを結合する最も優れた手法は,結合と特徴ベクトルの平均化によるものであることを確認した。
論文参考訳（メタデータ） (2022-07-07T14:04:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。