Fugu-MT 論文翻訳(概要): Multi-modal Food Recommendation using Clustering and Self-supervised Learning

論文の概要: Multi-modal Food Recommendation using Clustering and Self-supervised Learning

arxiv url: http://arxiv.org/abs/2406.18962v1
Date: Thu, 27 Jun 2024 07:45:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 05:16:04.341169
Title: Multi-modal Food Recommendation using Clustering and Self-supervised Learning
Title（参考訳）: クラスタリングと自己教師型学習を用いたマルチモーダル食品レコメンデーション
Authors: Yixin Zhang, Xin Zhou, Qianwen Meng, Fanglin Zhu, Yonghui Xu, Zhiqi Shen, Lizhen Cui,
Abstract要約: CLUSSLは,クラスタリングと自己教師型学習を活用する新しい食品レコメンデーションフレームワークである。 CLUSSLは、各モダリティに特有のグラフを離散的/連続的な特徴で定式化し、意味的特徴を構造的表現に変換する。異なるユニモーダルグラフから導出されるレシピ表現間の独立性を促進するために,自己指導型学習目標を提案する。
参考スコア（独自算出の注目度）: 27.74592587848116
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Food recommendation systems serve as pivotal components in the realm of digital lifestyle services, designed to assist users in discovering recipes and food items that resonate with their unique dietary predilections. Typically, multi-modal descriptions offer an exhaustive profile for each recipe, thereby ensuring recommendations that are both personalized and accurate. Our preliminary investigation of two datasets indicates that pre-trained multi-modal dense representations might precipitate a deterioration in performance compared to ID features when encapsulating interactive relationships. This observation implies that ID features possess a relative superiority in modeling interactive collaborative signals. Consequently, contemporary cutting-edge methodologies augment ID features with multi-modal information as supplementary features, overlooking the latent semantic relations between recipes. To rectify this, we present CLUSSL, a novel food recommendation framework that employs clustering and self-supervised learning. Specifically, CLUSSL formulates a modality-specific graph tailored to each modality with discrete/continuous features, thereby transforming semantic features into structural representation. Furthermore, CLUSSL procures recipe representations pertinent to different modalities via graph convolutional operations. A self-supervised learning objective is proposed to foster independence between recipe representations derived from different unimodal graphs. Comprehensive experiments on real-world datasets substantiate that CLUSSL consistently surpasses state-of-the-art recommendation benchmarks in performance.
Abstract（参考訳）: 食品レコメンデーションシステムは、デジタルライフスタイルサービスの領域において重要な要素であり、ユーザが独自の食事習慣に共鳴するレシピや食品の発見を支援するために設計された。通常、マルチモーダルな記述はレシピごとに徹底的なプロファイルを提供し、パーソナライズされかつ正確であるレコメンデーションを保証する。 2つのデータセットについて予備的な調査を行ったところ、事前訓練されたマルチモーダル密度表現は、対話的関係をカプセル化する場合のID特徴と比較して性能が低下する可能性が示唆された。この観察は、対話的協調信号のモデリングにおいて、ID特徴が相対的に優れていることを示唆している。その結果、現代の最先端手法は、レシピ間の潜伏した意味関係を見越して、多モーダル情報を補足的特徴として、ID機能を増強した。そこで我々は,クラスタリングと自己教師型学習を活用した新しい食品レコメンデーションフレームワークであるCLUSSLを提案する。具体的には、CLUSSLは各モダリティに特有のグラフを離散的/連続的な特徴で定式化し、意味的特徴を構造的表現に変換する。さらに、CLUSSLは、グラフ畳み込み操作を通じて、異なるモダリティに関連するレシピ表現を取得する。異なるユニモーダルグラフから導出されるレシピ表現間の独立性を促進するために,自己指導型学習目標を提案する。実世界のデータセットに関する包括的な実験は、CLUSSLがパフォーマンスの最先端レコメンデーションベンチマークを一貫して上回っていることを裏付けている。

関連論文リスト

Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文参考訳（メタデータ） (2024-11-13T15:58:50Z)
An Information Criterion for Controlled Disentanglement of Multimodal Data [39.601584166020274]
マルチモーダル表現学習は、複数のモーダルに固有の情報を関連付けて分解しようとする。 Disentangled Self-Supervised Learning (DisentangledSSL)は、非角表現を学習するための新しい自己教師型アプローチである。
論文参考訳（メタデータ） (2024-10-31T14:57:31Z)
Triple Modality Fusion: Aligning Visual, Textual, and Graph Data with Large Language Models for Multi-Behavior Recommendations [12.154043062308201]
本稿では,三重モダリティの融合を活かした,多行動レコメンデーションのための新しいフレームワークを提案する。提案モデルであるTriple Modality Fusion (TMF)は,大規模言語モデル(LLM)のパワーを利用して,これらの3つのモダリティを調整・統合する。大規模な実験により,提案手法の有効性が示唆された。
論文参考訳（メタデータ） (2024-10-16T04:44:15Z)
Self-Supervised Representation Learning with Meta Comprehensive Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文参考訳（メタデータ） (2024-03-03T15:53:48Z)
BiVRec: Bidirectional View-based Multimodal Sequential Recommendation [55.87443627659778]
我々は,IDとマルチモーダルの両方で推薦タスクを共同で訓練する,革新的なフレームワークであるBivRecを提案する。 BivRecは5つのデータセットで最先端のパフォーマンスを達成し、様々な実用的な利点を示している。
論文参考訳（メタデータ） (2024-02-27T09:10:41Z)
CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文参考訳（メタデータ） (2023-11-28T03:00:59Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文参考訳（メタデータ） (2023-08-24T20:46:48Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images with Latent Variable Model [28.649961369386148]
我々は、画像やテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学習するModality-Consistent Embedding Network(MCEN)を提案する。本手法は, 学習中のモーダル間のアライメントを学習するが, 効率を考慮に入れた推定時間において, 異なるモーダルの埋め込みを独立に計算する。
論文参考訳（メタデータ） (2020-04-02T16:00:10Z)
Multi-Granularity Reference-Aided Attentive Feature Aggregation for Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文参考訳（メタデータ） (2020-03-27T03:49:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。