論文の概要: A Metric for MLLM Alignment in Large-scale Recommendation
- arxiv url: http://arxiv.org/abs/2508.04963v1
- Date: Thu, 07 Aug 2025 01:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.680231
- Title: A Metric for MLLM Alignment in Large-scale Recommendation
- Title(参考訳): 大規模レコメンデーションにおけるMLLMアライメントの基準
- Authors: Yubin Zhang, Yanhua Huang, Haiming Xu, Mingliang Qi, Chang Wang, Jiarui Jin, Xiangyuan Ren, Xiaodan Wang, Ruiwen Xu,
- Abstract要約: Leakage Impact Score (LIS)は、マルチモーダルレコメンデーションのための新しいメトリクスである。
Leakage Impact Score (LIS)は、マルチモーダルレコメンデーションのための新しいメトリクスである。
- 参考スコア(独自算出の注目度): 8.93649151183144
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal recommendation has emerged as a critical technique in modern recommender systems, leveraging content representations from advanced multimodal large language models (MLLMs). To ensure these representations are well-adapted, alignment with the recommender system is essential. However, evaluating the alignment of MLLMs for recommendation presents significant challenges due to three key issues: (1) static benchmarks are inaccurate because of the dynamism in real-world applications, (2) evaluations with online system, while accurate, are prohibitively expensive at scale, and (3) conventional metrics fail to provide actionable insights when learned representations underperform. To address these challenges, we propose the Leakage Impact Score (LIS), a novel metric for multimodal recommendation. Rather than directly assessing MLLMs, LIS efficiently measures the upper bound of preference data. We also share practical insights on deploying MLLMs with LIS in real-world scenarios. Online A/B tests on both Content Feed and Display Ads of Xiaohongshu's Explore Feed production demonstrate the effectiveness of our proposed method, showing significant improvements in user spent time and advertiser value.
- Abstract(参考訳): マルチモーダル・リコメンデーションは、先進的マルチモーダル大言語モデル(MLLM)からのコンテンツ表現を活用する、現代のレコメンデーションシステムにおいて重要な技術として登場した。
これらの表現が適切に適合するようにするためには、レコメンダシステムとの整合が不可欠である。
しかし,MLLMのアライメント評価は,(1)実世界のアプリケーションにおけるダイナミズムのため,静的ベンチマークが不正確であること,(2)オンラインシステムによる評価が正確であるにもかかわらず,大規模では非常に高価であること,(3)従来の指標では,学習表現が不十分な場合に実行可能な洞察を提供することができなかったこと,の3つの主要な課題により,大きな課題が提示される。
これらの課題に対処するため,マルチモーダルレコメンデーションのための新しい指標であるLeakage Impact Score (LIS)を提案する。
LISはMLLMを直接評価するのではなく、選好データの上限を効率的に測定する。
また,実世界のシナリオにおいて,MLLMとLISのデプロイに関する実践的な洞察を共有した。
Xiaohongshu's Explore Feed ProductionのContent FeedとDisplay AdsのオンラインA/Bテストでは,提案手法の有効性が示され,ユーザ使用時間と広告主価値が大幅に向上した。
関連論文リスト
- Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations [6.949170757786365]
本稿では,LAAC (LLM-guided Adversarial Actor Critic) を提案する。
LAACは、不均衡なデータに頑健でありながら、多様性、ノベルティ、正確性において既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-07-28T19:00:40Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling [21.495443162191332]
大規模言語モデル(LLM)は様々な分野で顕著な成功を収めており、いくつかの研究がレコメンデーションシステムにおいてその可能性を探求している。
逐次レコメンデーションシステムを強化するために,新しい階層型大規模言語モデル (HLLM) アーキテクチャを提案する。
HLLMは,項目特徴抽出とユーザ関心モデリングの両方に 7B パラメータを利用する構成で,優れたスケーラビリティを実現している。
論文 参考訳(メタデータ) (2024-09-19T13:03:07Z) - LLM4MSR: An LLM-Enhanced Paradigm for Multi-Scenario Recommendation [45.31960122494715]
本稿では,LLM 拡張パラダイム LLM4MSR を提案する。
具体的には,まず LLM を利用してシナリオ相関やユーザ間の関心事など多段階の知識を明らかにする。
KuaiSAR-small、KuaiSAR、およびAmazonデータセットに関する我々の実験は、LLM4MSRの2つの重要な利点を検証した。
論文 参考訳(メタデータ) (2024-06-18T11:59:36Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。