Fugu-MT 論文翻訳(概要): A Hybrid Bandit Framework for Diversified Recommendation

論文の概要: A Hybrid Bandit Framework for Diversified Recommendation

arxiv url: http://arxiv.org/abs/2012.13245v1
Date: Thu, 24 Dec 2020 13:24:40 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-25 08:06:12.458646
Title: A Hybrid Bandit Framework for Diversified Recommendation
Title（参考訳）: 多様な勧告のためのハイブリッドバンドフレームワーク
Authors: Qinxu Ding, Yong Liu, Chunyan Miao, Fei Cheng, Haihong Tang
Abstract要約: 本稿では,モジュール関数と分散関数の組み合わせを最適化するLinear Modular Dispersion Bandit (LMDB) フレームワークを提案する。具体的には、LMDBは、各項目の関連性プロパティをモデル化するモジュラー関数と、アイテムセットの多様性特性を記述する分散関数を用いる。また, lmdb問題を解くための線形モジュラ分散ハイブリッド(lmdh)と呼ばれる学習アルゴリズムを開発し, そのn段階の後悔にギャップのないバウンドを導出する。
参考スコア（独自算出の注目度）: 42.516774050676254
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The interactive recommender systems involve users in the recommendation procedure by receiving timely user feedback to update the recommendation policy. Therefore, they are widely used in real application scenarios. Previous interactive recommendation methods primarily focus on learning users' personalized preferences on the relevance properties of an item set. However, the investigation of users' personalized preferences on the diversity properties of an item set is usually ignored. To overcome this problem, we propose the Linear Modular Dispersion Bandit (LMDB) framework, which is an online learning setting for optimizing a combination of modular functions and dispersion functions. Specifically, LMDB employs modular functions to model the relevance properties of each item, and dispersion functions to describe the diversity properties of an item set. Moreover, we also develop a learning algorithm, called Linear Modular Dispersion Hybrid (LMDH) to solve the LMDB problem and derive a gap-free bound on its n-step regret. Extensive experiments on real datasets are performed to demonstrate the effectiveness of the proposed LMDB framework in balancing the recommendation accuracy and diversity.
Abstract（参考訳）: 対話型レコメンダシステムでは,ユーザの適切なフィードバックを受けてレコメンデーションポリシを更新することで,レコメンデーション手順にユーザを参加させる。したがって、実際のアプリケーションシナリオで広く使われている。これまでのインタラクティブレコメンデーション手法は、主にアイテムセットの関連性に関するユーザのパーソナライズされた好みの学習に焦点を当てている。しかしながら、アイテムセットの多様性特性に対するユーザのパーソナライズされた好みの調査は通常無視される。この問題を解決するために,モジュール関数と分散関数の組み合わせを最適化するためのオンライン学習環境であるLinear Modular Dispersion Bandit (LMDB) フレームワークを提案する。具体的には、lmdbはモジュラー関数を使って各アイテムの関連性をモデル化し、分散関数はアイテム集合の多様性特性を記述する。さらに,LMDH(Linear Modular Dispersion Hybrid)と呼ばれる学習アルゴリズムも開発し,LMDB問題を解くとともに,そのnステップの後悔に基づいてギャップのない境界を導出する。推薦精度と多様性のバランスをとるためのlmdbフレームワークの有効性を実証するために,実データセットに関する広範な実験を行った。

関連論文リスト

Embed Progressive Implicit Preference in Unified Space for Deep Collaborative Filtering [13.24227546548424]
GNOLR(Generalized Neural Ordinal Logistic Regression)は、ユーザエンゲージメントの構造的進行を捉えるために提案されている。 GNOLRは予測精度を高め、ユーザのエンゲージメントの進行を捉え、検索プロセスを単純化する。 10の実世界のデータセットでの実験では、GNOLRは効率と適応性において最先端の手法を大幅に上回っている。
論文参考訳（メタデータ） (2025-05-27T08:43:35Z)
RecLM: Recommendation Instruction Tuning [17.780484832381994]
本稿では,大規模言語モデルと協調フィルタリングをシームレスに統合するモデル非依存の指導訓練パラダイムを提案する。提案した$underlineRec$ommendationは、慎重に設計された強化学習報酬関数により、ユーザの好みの多様性を捕捉する。
論文参考訳（メタデータ） (2024-12-26T17:51:54Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。 Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。 4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文参考訳（メタデータ） (2024-11-14T13:00:23Z)
Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。 LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文参考訳（メタデータ） (2024-09-30T03:59:06Z)
Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information [76.62949982303532]
協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。 M-Formerは軽量なMoEベースのクエリ変換器で、クエリ専門家のセットを使用して、凍結IDベースのシーケンシャルレコメンデータシステムによって符号化された多様なユーザ固有の協調情報を統合する。
論文参考訳（メタデータ） (2024-09-03T04:55:03Z)
Customizing Language Models with Instance-wise LoRA for Sequential Recommendation [28.667247613039965]
時系列レコメンデーションシステムは、ユーザの過去のインタラクションに基づいて次のインタラクション項目を予測し、個別の好みに合わせてレコメンデーションを調整する。マルチタスク学習の一形態としてインスタンスワイドLoRA(iLoRA)を提案し、LoRAとMixture of Experts(MoE)フレームワークを統合する。 iLoRAは、トレーニング可能なパラメータの1%未満の相対的な増加で、基本的なLoRAよりも11.4%の平均的な相対的な改善を達成している。
論文参考訳（メタデータ） (2024-08-19T17:09:32Z)
Beyond Inter-Item Relations: Dynamic Adaption for Enhancing LLM-Based Sequential Recommendation [83.87767101732351]
逐次リコメンデータシステム(SRS)は,ユーザの過去のインタラクションシーケンスに基づいて,ユーザが好む次の項目を予測する。様々なAIアプリケーションにおける大規模言語モデル(LLM)の台頭に触発されて、LLMベースのSRSの研究が急増している。我々は,大きめの粒度適応の上に構築された逐次レコメンデーションモデルであるDARecを提案する。
論文参考訳（メタデータ） (2024-08-14T10:03:40Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
Bayesian preference elicitation for multiobjective combinatorial optimization [12.96855751244076]
DM(Decision Maker)のノイズ応答に対処できる新しいインクリメンタルな選好推論手法を提案する。 DMの選好はパラメータが未知の集約関数で表され、その不確実性はパラメータ空間上の密度関数で表されると仮定する。
論文参考訳（メタデータ） (2020-07-29T12:28:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。