論文の概要: From Raw Features to Effective Embeddings: A Three-Stage Approach for Multimodal Recipe Recommendation
- arxiv url: http://arxiv.org/abs/2511.19176v1
- Date: Mon, 24 Nov 2025 14:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.26025
- Title: From Raw Features to Effective Embeddings: A Three-Stage Approach for Multimodal Recipe Recommendation
- Title(参考訳): 生来の特徴から効果的な埋め込みへ:マルチモーダルレシピレコメンデーションのための3段階的アプローチ
- Authors: Jeeho Shin, Kyungho Kim, Kijung Shin,
- Abstract要約: 生のマルチモーダルな特徴を効果的に組み込む3段階のレシピレコメンデーションフレームワークであるTESMRを提案する。
2つの実世界のデータセットの実験によると、TESMRは既存のメソッドより優れており、Recall@10は7~15%高い。
- 参考スコア(独自算出の注目度): 32.87274710946087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recipe recommendation has become an essential task in web-based food platforms. A central challenge is effectively leveraging rich multimodal features beyond user-recipe interactions. Our analysis shows that even simple uses of multimodal signals yield competitive performance, suggesting that systematic enhancement of these signals is highly promising. We propose TESMR, a 3-stage framework for recipe recommendation that progressively refines raw multimodal features into effective embeddings through: (1) content-based enhancement using foundation models with multimodal comprehension, (2) relation-based enhancement via message propagation over user-recipe interactions, and (3) learning-based enhancement through contrastive learning with learnable embeddings. Experiments on two real-world datasets show that TESMR outperforms existing methods, achieving 7-15% higher Recall@10.
- Abstract(参考訳): レシピレコメンデーションは、Webベースの食品プラットフォームにおいて不可欠なタスクとなっている。
中心的な課題は、ユーザと要求のインタラクションを超えて、リッチなマルチモーダル機能を効果的に活用することである。
解析の結果,マルチモーダル信号の簡易利用でも競争性能が向上し,これらの信号の体系的拡張が期待できることが示された。
提案する3段階のレシピレコメンデーションフレームワークであるTESMRは,(1)マルチモーダル理解を用いた基礎モデルを用いたコンテンツベース強化,(2)ユーザとレシピのインタラクションによるメッセージ伝達による関係ベース強化,(3)学習可能な埋め込みによるコントラスト学習による学習ベース強化,である。
2つの実世界のデータセットの実験によると、TESMRは既存のメソッドより優れており、Recall@10は7~15%高い。
関連論文リスト
- Diffusion-based Multi-modal Synergy Interest Network for Click-through Rate Prediction [10.958001571669415]
クリックスルーレート予測では、ユーザの興味をモデル化するためにクリックスルーレート予測が使用される。
既存のCTR予測手法のほとんどは、主にIDモダリティに基づいている。
本稿では,Diffusion-based Multi-modal Synergy Interest Network (Diff-MSIN) をクリックスルー予測のためのフレームワークとして提案する。
論文 参考訳(メタデータ) (2025-08-29T09:46:16Z) - MLLMRec: Exploring the Potential of Multimodal Large Language Models in Recommender Systems [8.744074431975019]
本稿では,MLLM方式のマルチモーダル・レコメンデーション・フレームワークを提案する。
MLLMRecは、最高のベースラインよりも平均38.53%改善して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-21T06:50:00Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - REM: A Scalable Reinforced Multi-Expert Framework for Multiplex Influence Maximization [3.275046031354923]
ソーシャルオンラインプラットフォームでは、影響力のあるシードユーザーを特定し、影響力の広がりを最大化することが重要な課題である。
これらの問題に対処するために、Reinforced Expert Maximization framework (REM)を提案する。
REMは、影響拡大、スケーラビリティ、および影響タスクにおける推論時間の観点から、最先端の手法を超越している。
論文 参考訳(メタデータ) (2025-01-01T09:13:09Z) - CADMR: Cross-Attention and Disentangled Learning for Multimodal Recommender Systems [0.6037276428689637]
本稿では,新しいオートエンコーダに基づくマルチモーダルレコメンデータシステムCADMRを提案する。
CADMRを3つのベンチマークデータセット上で評価し,最先端の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-03T09:09:52Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - 3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech
recognition [31.992543274210835]
我々は、ASRタスクのさらなる改善を実現するために、いくつかのアプローチを特定し、統合する。
特に、マルチロスは共同CTC/AED損失を指し、マルチパスはMixture-of-Experts(MoE)アーキテクチャを表す。
WenetSpeechデータセットを用いて提案手法の評価を行い,提案手法がCERの相対的改善を12.2%-17.6%に与えることを示す。
論文 参考訳(メタデータ) (2022-04-07T03:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。