論文の概要: Multimodal Recommendation via Self-Corrective Preference Alignmen
- arxiv url: http://arxiv.org/abs/2508.14912v1
- Date: Wed, 13 Aug 2025 13:07:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.005177
- Title: Multimodal Recommendation via Self-Corrective Preference Alignmen
- Title(参考訳): 自己修正的選好アライメントによるマルチモーダルレコメンデーション
- Authors: Yalong Guan, Xiang Chen, Mingyang Wang, Xiangyu Wu, Lihao Liu, Chao Qi, Shuang Yang, Tingting Gao, Guorui Zhou, Changjian Chen,
- Abstract要約: 本稿では,MSPA(Multimodal Self-Corrective Preference Alignment)を提案する。
大規模な実験と可視化により、MSPAはダイナミックなライブストリーミングシナリオにおいて、精度、リコール、テキスト品質を著しく改善し、ベースラインを上回ります。
- 参考スコア(独自算出の注目度): 18.40469347676686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of live streaming platforms, personalized recommendation systems have become pivotal in improving user experience and driving platform revenue. The dynamic and multimodal nature of live streaming content (e.g., visual, audio, textual data) requires joint modeling of user behavior and multimodal features to capture evolving author characteristics. However, traditional methods relying on single-modal features or treating multimodal ones as supplementary struggle to align users' dynamic preferences with authors' multimodal attributes, limiting accuracy and interpretability. To address this, we propose MSPA (Multimodal Self-Corrective Preference Alignment), a personalized author recommendation framework with two components: (1) a Multimodal Preference Composer that uses MLLMs to generate structured preference text and embeddings from users' tipping history; and (2) a Self-Corrective Preference Alignment Recommender that aligns these preferences with authors' multimodal features to improve accuracy and interpretability. Extensive experiments and visualizations show that MSPA significantly improves accuracy, recall, and text quality, outperforming baselines in dynamic live streaming scenarios.
- Abstract(参考訳): ライブストリーミングプラットフォームの急速な成長に伴い、パーソナライズされたレコメンデーションシステムは、ユーザーエクスペリエンスの向上とプラットフォーム収益の推進に重要な役割を担っている。
ライブストリーミングコンテンツ(例えば、視覚、音声、テキストデータ)の動的およびマルチモーダルな性質は、進化する作者の特徴を捉えるために、ユーザの振る舞いとマルチモーダルな特徴を共同でモデリングする必要がある。
しかし、従来の手法では、単一モーダルの特徴を頼りにしたり、複数モーダル特徴を補足的に扱い、ユーザの動的嗜好を著者のマルチモーダル属性と整合させ、精度と解釈可能性を制限する。
そこで本稿では,MSPA(Multimodal Self-Corrective Preference Alignment)というパーソナライズされた著者推薦フレームワークを提案する。(1)MLLMを用いて構造化された選好テキストとユーザのチップ履歴からの埋め込みを生成するマルチモーダル選好コンストラクタ,(2)これらの選好を著者のマルチモーダル特徴と整合させて精度と解釈性を向上させるセルフコレクティブ選好アライメントレコメンダである。
大規模な実験と可視化により、MSPAはダイナミックなライブストリーミングシナリオにおいて、精度、リコール、テキスト品質を著しく改善し、ベースラインを上回ります。
関連論文リスト
- Efficient Multimodal Streaming Recommendation via Expandable Side Mixture-of-Experts [40.79898677069334]
マルチモーダルストリーミングレコメンダシステムは、ユーザの関心が時間とともに変化する現実世界のアプリケーションに広くデプロイされている。
マルチモーダルストリーミングレコメンデーションのためのメモリ効率の高いフレームワークであるXSMoE(Expandable Side Mixture-of-Experts)を提案する。
XSMoEは、凍結したトレーニング済みエンコーダに軽量なサイドチューニングモジュールをアタッチし、ユーザのフィードバックの進化に応じて徐々に拡張する。
論文 参考訳(メタデータ) (2025-08-08T04:00:05Z) - Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs [74.74767980885758]
マルチレベル優先最適化フレームワークであるContext-to-Cue Direct Preference Optimization (CcDPO)を提案する。
CcDPOは、シーケンシャルなコンテキストからローカルな詳細まで、視覚的なヒントをズームすることで、マルチイメージ設定でのイメージ単位の知覚を強化する。
実験により、CcDPOは幻覚を著しく減少させ、一貫した性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2025-05-28T14:24:02Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Enhancing User Intent for Recommendation Systems via Large Language Models [0.0]
DUIPはLSTMネットワークとLLM(Large Language Models)を組み合わせた新しいフレームワークで、ユーザの意図を動的に把握し、パーソナライズされたアイテムレコメンデーションを生成する。
この結果から,DUIPは次世代レコメンデーションシステムにとって有望なアプローチであり,クロスモーダルレコメンデーションとスケーラビリティのさらなる向上の可能性が示唆された。
論文 参考訳(メタデータ) (2025-01-18T20:35:03Z) - Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation [4.518104756199573]
Molarは、複数のコンテンツモダリティとID情報を統合するシーケンシャルなレコメンデーションフレームワークで、協調的な信号を効果的にキャプチャする。
マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザの関心事とコンテキスト意味論の両方をキャプチャし、より優れた推奨精度をもたらす。
論文 参考訳(メタデータ) (2024-12-24T05:23:13Z) - MDAP: A Multi-view Disentangled and Adaptive Preference Learning Framework for Cross-Domain Recommendation [63.27390451208503]
クロスドメインレコメンデーションシステムは、マルチドメインユーザインタラクションを活用してパフォーマンスを向上させる。
マルチビュー・ディスタングル・アダプティブ・プライスラーニング・フレームワークを提案する。
当社のフレームワークはマルチビューエンコーダを使用して,多様なユーザの好みをキャプチャする。
論文 参考訳(メタデータ) (2024-10-08T10:06:45Z) - PMG : Personalized Multimodal Generation with Large Language Models [20.778869086174137]
本稿では,大規模言語モデル(LLM)を用いたパーソナライズされたマルチモーダル生成手法を提案する。
2つのデータセットに関する広範な実験を通じて、その応用を実証し、その性能を検証する。
PMGのパーソナライゼーションはLPIPSで最大8%向上し, 生成精度は向上した。
論文 参考訳(メタデータ) (2024-04-07T03:05:57Z) - Enhancing Sequential Recommender with Large Language Models for Joint Video and Comment Recommendation [77.42486522565295]
我々は、パーソナライズされたビデオとコメントのレコメンデーションを共同で行うLSVCRと呼ばれる新しいレコメンデーション手法を提案する。
提案手法は,逐次レコメンデーション(SR)モデルと補足型大言語モデル(LLM)レコメンデーションという2つの重要なコンポーネントから構成される。
特に、コメント視聴時間の累積増加率は4.13%に達した。
論文 参考訳(メタデータ) (2024-03-20T13:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。