Fugu-MT 論文翻訳(概要): VLM4Rec: Multimodal Semantic Representation for Recommendation with Large Vision-Language Models

論文の概要: VLM4Rec: Multimodal Semantic Representation for Recommendation with Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.12625v1
Date: Fri, 13 Mar 2026 03:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.888026
Title: VLM4Rec: Multimodal Semantic Representation for Recommendation with Large Vision-Language Models
Title（参考訳）: VLM4Rec:大規模視覚言語モデルを用いた勧告のためのマルチモーダル意味表現
Authors: Ty Valencia, Burak Barlas, Varun Singhal, Ruchir Bhatia, Wei Yang,
Abstract要約: LVLM-grounded multimodal Semantic Representation for Recommendation (VLM4Rec)を提案する。 VLM4Recは、直接特徴融合ではなく、セマンティックアライメントを通じて、マルチモーダルアイテムコンテンツを整理する。複数のマルチモーダルレコメンデーションデータセットの実験では、VLM4Recは生の視覚的特徴よりもパフォーマンスを一貫して改善している。
参考スコア（独自算出の注目度）: 3.1262100364392205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal recommendation is commonly framed as a feature fusion problem, where textual and visual signals are combined to better model user preference. However, the effectiveness of multimodal recommendation may depend not only on how modalities are fused, but also on whether item content is represented in a semantic space aligned with preference matching. This issue is particularly important because raw visual features often preserve appearance similarity, while user decisions are typically driven by higher-level semantic factors such as style, material, and usage context. Motivated by this observation, we propose LVLM-grounded Multimodal Semantic Representation for Recommendation (VLM4Rec), a lightweight framework that organizes multimodal item content through semantic alignment rather than direct feature fusion. VLM4Rec first uses a large vision-language model to ground each item image into an explicit natural-language description, and then encodes the grounded semantics into dense item representations for preference-oriented retrieval. Recommendation is subsequently performed through a simple profile-based semantic matching mechanism over historical item embeddings, yielding a practical offline-online decomposition. Extensive experiments on multiple multimodal recommendation datasets show that VLM4Rec consistently improves performance over raw visual features and several fusion-based alternatives, suggesting that representation quality may matter more than fusion complexity in this setting. The code is released at https://github.com/tyvalencia/enhancing-mm-rec-sys.
Abstract（参考訳）: マルチモーダルレコメンデーションは、テキスト信号と視覚信号を組み合わせてユーザの好みをモデル化する機能融合問題として一般的に考えられている。しかし、マルチモーダルレコメンデーションの有効性は、モダリティの融合度だけでなく、項目内容が嗜好マッチングに整合した意味空間で表現されるかどうかにも依存する。この問題は、生の視覚的特徴が外観の類似性をしばしば保持するのに対して、ユーザ決定はスタイル、素材、使用状況などの高レベルな意味要因によって駆動されるため、特に重要である。本稿では,LVLMをベースとしたマルチモーダル・セマンティック・レポーティング・フォー・レコメンデーション(VLM4Rec)を提案する。 VLM4Recは、まず大きな視覚言語モデルを使用して、各アイテムイメージを明示的な自然言語記述にグラウンドし、次いで、グラウンドドセマンティクスを高密度なアイテム表現にエンコードして、好み指向の検索を行う。その後、履歴項目の埋め込みに関する単純なプロファイルベースのセマンティックマッチング機構によってレコメンデーションが行われ、実際にオフラインでオフラインで分解される。複数のマルチモーダルレコメンデーションデータセットに対する大規模な実験により、VLM4Recは生の視覚的特徴といくつかの融合ベースの代替品よりも一貫して性能を向上し、この設定では表現品質が融合複雑さ以上のものとなる可能性が示唆された。コードはhttps://github.com/tyvalencia/enhancing-mm-rec-sysで公開されている。

関連論文リスト

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval [27.493644447594367]
MCMR (Multi-Conditional Multimodal Retrieval) は、自然言語クエリによる細粒度・多条件クロスモーダル検索を評価するために設計された大規模ベンチマークである。製品ドメインは、上着と下着、宝石、靴、家具の5つ。 MLLMベースのマルチモーダルレトリバーと視覚言語リランカの多種多様なスイートをベンチマークし,その条件認識推論能力を評価する。
論文参考訳（メタデータ） (2026-03-01T12:53:47Z)
RecGOAT: Graph Optimal Adaptive Transport for LLM-Enhanced Multimodal Recommendation with Dual Semantic Alignment [23.738860191046538]
マルチモーダルなレコメンデーションのための新しい2つのセマンティックアライメントフレームワークRecGOATを提案する。 RecGOATは、我々の理論的洞察を実証的に検証し、最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2026-01-31T11:58:38Z)
UniRec: Unified Multimodal Encoding for LLM-Based Recommendations [34.599623480921444]
推奨機能は,テキスト,画像,分類的特徴,数値属性の4つのモードに分類する。特に、これらの課題は、モダリティだけでなく、価格、レーティング、時間といった属性も数値でありながら、意味の異なる意味を持つため、モダリティ内でも生じます。 LLMに基づくレコメンデーションのための統一型マルチモーダルエンコーダUniRecを提案する。
論文参考訳（メタデータ） (2026-01-27T10:02:29Z)
M^2VAE: Multi-Modal Multi-View Variational Autoencoder for Cold-start Item Recommendation [14.644213412218742]
コールドスタートアイテムレコメンデーションはレコメンデーションシステムにおいて重要な課題である。既存の方法は、コールドスタート問題を緩和するためにマルチモーダルコンテンツを利用する。本稿では,属性とマルチモーダルの特徴の共通性とユニークなビューをモデル化する上での課題に対処する生成モデルを提案する。
論文参考訳（メタデータ） (2025-08-01T09:16:26Z)
Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。 CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文参考訳（メタデータ） (2025-05-28T14:24:02Z)
Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文参考訳（メタデータ） (2025-05-08T05:42:22Z)
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。 Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。 4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文参考訳（メタデータ） (2024-11-14T13:00:23Z)
Good Visual Guidance Makes A Better Extractor: Hierarchical Visual Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。 3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文参考訳（メタデータ） (2022-05-07T02:10:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。