論文の概要: A Hybrid Bandit Framework for Diversified Recommendation
- arxiv url: http://arxiv.org/abs/2012.13245v1
- Date: Thu, 24 Dec 2020 13:24:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:06:12.458646
- Title: A Hybrid Bandit Framework for Diversified Recommendation
- Title(参考訳): 多様な勧告のためのハイブリッドバンドフレームワーク
- Authors: Qinxu Ding, Yong Liu, Chunyan Miao, Fei Cheng, Haihong Tang
- Abstract要約: 本稿では,モジュール関数と分散関数の組み合わせを最適化するLinear Modular Dispersion Bandit (LMDB) フレームワークを提案する。
具体的には、LMDBは、各項目の関連性プロパティをモデル化するモジュラー関数と、アイテムセットの多様性特性を記述する分散関数を用いる。
また, lmdb問題を解くための線形モジュラ分散ハイブリッド(lmdh)と呼ばれる学習アルゴリズムを開発し, そのn段階の後悔にギャップのないバウンドを導出する。
- 参考スコア(独自算出の注目度): 42.516774050676254
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The interactive recommender systems involve users in the recommendation
procedure by receiving timely user feedback to update the recommendation
policy. Therefore, they are widely used in real application scenarios. Previous
interactive recommendation methods primarily focus on learning users'
personalized preferences on the relevance properties of an item set. However,
the investigation of users' personalized preferences on the diversity
properties of an item set is usually ignored. To overcome this problem, we
propose the Linear Modular Dispersion Bandit (LMDB) framework, which is an
online learning setting for optimizing a combination of modular functions and
dispersion functions. Specifically, LMDB employs modular functions to model the
relevance properties of each item, and dispersion functions to describe the
diversity properties of an item set. Moreover, we also develop a learning
algorithm, called Linear Modular Dispersion Hybrid (LMDH) to solve the LMDB
problem and derive a gap-free bound on its n-step regret. Extensive experiments
on real datasets are performed to demonstrate the effectiveness of the proposed
LMDB framework in balancing the recommendation accuracy and diversity.
- Abstract(参考訳): 対話型レコメンダシステムでは,ユーザの適切なフィードバックを受けてレコメンデーションポリシを更新することで,レコメンデーション手順にユーザを参加させる。
したがって、実際のアプリケーションシナリオで広く使われている。
これまでのインタラクティブレコメンデーション手法は、主にアイテムセットの関連性に関するユーザのパーソナライズされた好みの学習に焦点を当てている。
しかしながら、アイテムセットの多様性特性に対するユーザのパーソナライズされた好みの調査は通常無視される。
この問題を解決するために,モジュール関数と分散関数の組み合わせを最適化するためのオンライン学習環境であるLinear Modular Dispersion Bandit (LMDB) フレームワークを提案する。
具体的には、lmdbはモジュラー関数を使って各アイテムの関連性をモデル化し、分散関数はアイテム集合の多様性特性を記述する。
さらに,LMDH(Linear Modular Dispersion Hybrid)と呼ばれる学習アルゴリズムも開発し,LMDB問題を解くとともに,そのnステップの後悔に基づいてギャップのない境界を導出する。
推薦精度と多様性のバランスをとるためのlmdbフレームワークの有効性を実証するために,実データセットに関する広範な実験を行った。
関連論文リスト
- Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information [76.62949982303532]
協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。
我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。
M-Formerは軽量なMoEベースのクエリ変換器で、クエリ専門家のセットを使用して、凍結IDベースのシーケンシャルレコメンデータシステムによって符号化された多様なユーザ固有の協調情報を統合する。
論文 参考訳(メタデータ) (2024-09-03T04:55:03Z) - Customizing Language Models with Instance-wise LoRA for Sequential Recommendation [28.667247613039965]
時系列レコメンデーションシステムは、ユーザの過去のインタラクションに基づいて次のインタラクション項目を予測し、個別の好みに合わせてレコメンデーションを調整する。
マルチタスク学習の一形態としてインスタンスワイドLoRA(iLoRA)を提案し、LoRAとMixture of Experts(MoE)フレームワークを統合する。
iLoRAは、トレーニング可能なパラメータの1%未満の相対的な増加で、基本的なLoRAよりも11.4%の平均的な相対的な改善を達成している。
論文 参考訳(メタデータ) (2024-08-19T17:09:32Z) - Beyond Inter-Item Relations: Dynamic Adaption for Enhancing LLM-Based Sequential Recommendation [83.87767101732351]
逐次リコメンデータシステム(SRS)は,ユーザの過去のインタラクションシーケンスに基づいて,ユーザが好む次の項目を予測する。
様々なAIアプリケーションにおける大規模言語モデル(LLM)の台頭に触発されて、LLMベースのSRSの研究が急増している。
我々は,大きめの粒度適応の上に構築された逐次レコメンデーションモデルであるDARecを提案する。
論文 参考訳(メタデータ) (2024-08-14T10:03:40Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Bayesian preference elicitation for multiobjective combinatorial
optimization [12.96855751244076]
DM(Decision Maker)のノイズ応答に対処できる新しいインクリメンタルな選好推論手法を提案する。
DMの選好はパラメータが未知の集約関数で表され、その不確実性はパラメータ空間上の密度関数で表されると仮定する。
論文 参考訳(メタデータ) (2020-07-29T12:28:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。