論文の概要: Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation
- arxiv url: http://arxiv.org/abs/2511.18740v1
- Date: Mon, 24 Nov 2025 04:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.010019
- Title: Multimodal Large Language Models with Adaptive Preference Optimization for Sequential Recommendation
- Title(参考訳): 逐次レコメンデーションのための適応的選好最適化を用いた多モーダル大言語モデル
- Authors: Yu Wang, Yonghui Yang, Le Wu, Yi Zhang, Richang Hong,
- Abstract要約: 本稿では,Hardness-Aware とNoNoRec (HaNoRec) を併用したマルチモーダル大規模言語モデルフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて、最適化重量を動的に調整する。
- 参考スコア(独自算出の注目度): 60.33386541343322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have opened new avenues for sequential recommendation by enabling natural language reasoning over user behavior sequences. A common approach formulates recommendation as a language modeling task, where interaction histories are transformed into prompts and user preferences are learned via supervised fine-tuning. However, these methods operate solely in the textual modality and often miss users' fine-grained interests, especially when shaped by rich visual signals such as product images or movie posters. Multimodal Large Language Models (MLLMs) offer a promising alternative by aligning text and vision in a shared semantic space. A prevalent training paradigm applies Supervised Fine-Tuning (SFT) followed by Direct Preference Optimization (DPO) to model user preferences. Yet, two core challenges remain: 1) Imbalanced sample hardness, where random negative sampling causes overfitting on easy examples and under-training on hard ones; 2) Cross-modal semantic bias, where the fixed reference model in DPO prevents the policy model from correcting modality misalignments--especially over long sequences. To address these issues, we propose a Multimodal LLM framework that integrates Hardness-aware and Noise-regularized preference optimization for Recommendation (HaNoRec). Specifically, HaNoRec dynamically adjusts optimization weights based on both the estimated hardness of each training sample and the policy model's real-time responsiveness, prioritizing harder examples. It further introduces Gaussian-perturbed distribution optimization on output logits to enhance cross-modal semantic consistency and reduce modality bias inherited from the reference model.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は,ユーザ行動系列に対する自然言語推論を可能にすることによって,シーケンシャルなレコメンデーションのための新たな道を開いた。
共通のアプローチは、インタラクション履歴をプロンプトに変換し、ユーザの好みを教師付き微調整によって学習する言語モデリングタスクとして推奨を定式化する。
しかし、これらの手法はテキストのモダリティのみで動作し、特に製品画像や映画のポスターのようなリッチな視覚信号によって形作られた場合、ユーザの微妙な関心を見逃すことが多い。
MLLM(Multimodal Large Language Models)は、テキストとビジョンを共有セマンティック空間で整列させることによって、有望な代替手段を提供する。
一般的なトレーニングパラダイムは、ユーザー好みをモデル化するためにSupervised Fine-Tuning (SFT) と Direct Preference Optimization (DPO) が適用される。
しかし、大きな課題は2つ残っている。
1) ランダムな負のサンプリングが簡単なサンプルに過度に適合し,かつ,ハードに過度に訓練する不均衡サンプル硬度
2)DPOの固定参照モデルでは,モダリティのミスアライメント,特に長いシーケンスの修正が防止される。
これらの問題に対処するために,Hardness-AwareとNonoRec(HaNoRec)のためのノイズ正規化優先最適化を統合したマルチモーダルLLMフレームワークを提案する。
具体的には、HaNoRecは、各トレーニングサンプルの予測硬度とポリシーモデルのリアルタイム応答性の両方に基づいて最適化重量を動的に調整し、難しい例を優先順位付けする。
さらに、出力ロジット上でガウス摂動分布の最適化を導入し、モーダル間のセマンティック一貫性を高め、参照モデルから受け継いだモダリティバイアスを低減する。
関連論文リスト
- POPI: Personalizing LLMs via Optimized Natural Language Preference Inference [42.25870704040321]
POPIは、不均一なユーザ信号を簡潔な自然言語要約に変換するための選好推論モデルを導入する一般的なフレームワークである。
これらの要約は、パーソナライズされた応答を生成するために共有生成モデルを必要とする透明でコンパクトで、転送可能なパーソナライズ表現として機能する。
4つのパーソナライズベンチマークによる大規模な実験により、POPIはパーソナライズ精度を常に改善し、コンテキストオーバーヘッドを大きなマージンで低減することを示した。
論文 参考訳(メタデータ) (2025-10-17T23:07:57Z) - Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - mDPO: Conditional Preference Optimization for Multimodal Large Language Models [52.607764280030196]
直接選好最適化(DPO)は,大規模言語モデル(LLM)のアライメントに有効な手法であることが示されている。
最近の研究は、DPOをマルチモーダルシナリオに適用しようと試みているが、一貫した改善を達成することは困難である。
画像の嗜好を最適化することで、言語のみの嗜好の過度な優先順位付けを防止するマルチモーダルDPOであるmDPOを提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:58Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。