論文の概要: A Hybrid Meta-Learning and Multi-Armed Bandit Approach for Context-Specific Multi-Objective Recommendation Optimization
- arxiv url: http://arxiv.org/abs/2409.08752v1
- Date: Fri, 13 Sep 2024 12:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:49:03.774400
- Title: A Hybrid Meta-Learning and Multi-Armed Bandit Approach for Context-Specific Multi-Objective Recommendation Optimization
- Title(参考訳): コンテキスト特有な多目的推薦最適化のためのハイブリッドメタラーニングとマルチアーマドバンドアプローチ
- Authors: Tiago Cunha, Andrea Marchini,
- Abstract要約: 本稿では, メタラーニングとマルチアーマッド・バンディット(MAB)を組み合わせるハイブリッドアプローチであるJuggler-MABを紹介し, 既存のマルチステークホルダ・リコメンデーションシステムの限界に対処する。
本稿では,Jugglerが初期重み予測を行うための2段階のアプローチを提案する。
結果は、Juggler-MABが元のJugglerモデルよりも優れており、NDCGの改善は2.9%、後悔の13.7%、最高の腕選択率の9.8%が向上していることを示している。
- 参考スコア(独自算出の注目度): 0.09208007322096533
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recommender systems in online marketplaces face the challenge of balancing multiple objectives to satisfy various stakeholders, including customers, providers, and the platform itself. This paper introduces Juggler-MAB, a hybrid approach that combines meta-learning with Multi-Armed Bandits (MAB) to address the limitations of existing multi-stakeholder recommendation systems. Our method extends the Juggler framework, which uses meta-learning to predict optimal weights for utility and compensation adjustments, by incorporating a MAB component for real-time, context-specific refinements. We present a two-stage approach where Juggler provides initial weight predictions, followed by MAB-based adjustments that adapt to rapid changes in user behavior and market conditions. Our system leverages contextual features such as device type and brand to make fine-grained weight adjustments based on specific segments. To evaluate our approach, we developed a simulation framework using a dataset of 0.6 million searches from Expedia's lodging booking platform. Results show that Juggler-MAB outperforms the original Juggler model across all metrics, with NDCG improvements of 2.9%, a 13.7% reduction in regret, and a 9.8% improvement in best arm selection rate.
- Abstract(参考訳): オンラインマーケットプレースのレコメンダシステムは、顧客やプロバイダ、プラットフォームなど、さまざまな利害関係者を満たすために、複数の目標のバランスをとるという課題に直面しています。
本稿では, メタラーニングとマルチアーマッド・バンディット(MAB)を組み合わせるハイブリッドアプローチであるJuggler-MABを紹介し, 既存のマルチステークホルダ・リコメンデーションシステムの限界に対処する。
提案手法は,MABコンポーネントをリアルタイム・コンテキスト特化処理に組み込むことで,メタラーニングを用いてユーティリティと補償調整のための最適な重み付けを予測できるJugglerフレームワークを拡張した。
本稿では,Jugglerが初期重み予測を行うための2段階のアプローチを提案する。
本システムでは,デバイスタイプやブランドなどのコンテキスト特性を活用して,特定のセグメントに基づいて微粒な重量調整を行う。
提案手法を評価するために,Expediaの宿泊予約プラットフォームから0.6百万件の検索データセットを用いたシミュレーションフレームワークを開発した。
結果は、Juggler-MABが元のJugglerモデルよりも優れており、NDCGの改善は2.9%、後悔の13.7%、最高の腕選択率の9.8%が向上していることを示している。
関連論文リスト
- Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Large Language Model Empowered Embedding Generator for Sequential Recommendation [57.49045064294086]
大言語モデル(LLM)は、その人気に関係なく、項目間の意味的関係を理解する能力を持つ。
LLMEmbは、LCMを利用してアイテム埋め込みを作成し、シークエンシャル・レコメンダ・システムの性能を高める革新的な技術である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - DLCRec: A Novel Approach for Managing Diversity in LLM-Based Recommender Systems [9.433227503973077]
LLMに基づくレコメンデーションにおいて,多様性のきめ細かい制御を可能にする新しいフレームワークを提案する。
従来の方法とは異なり、DLCRecはきめ細かいタスク分解戦略を採用し、推奨プロセスを3つのサブタスクに分割する。
本稿では,ノイズやアウト・オブ・ディストリビューションデータに対するモデルの堅牢性を高める2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T15:10:56Z) - Cooperative Multi-Agent Deep Reinforcement Learning in Content Ranking Optimization [3.8731520246920064]
1) 位置レベルの最適化から全体のページレベルの最適化へ移行し、総合的なランク付けを実現するため、2) 即時報酬ではなく累積報酬のために強化学習を適用することで、ページ全体のランク付けを協調的に最適化する強化学習手法を提案する。
実験により、MADDPGは公共のムジョコ環境において25億のアクションスペースにスケールし、主要な電子商取引会社によって設定されたオフラインのCROデータにおいて、ディープ・バンディット・モデリングを25.7%上回っていることが示された。
論文 参考訳(メタデータ) (2024-08-08T06:36:56Z) - Pareto Front Approximation for Multi-Objective Session-Based Recommender Systems [0.0]
MultiTRONは、マルチオブジェクトセッションベースのレコメンデータシステムに近似技術を適用するアプローチである。
提案手法は,選好ベクトルの学習によるクリックスルーや変換率といった重要な指標間のトレードオフを最適化する。
大規模なオフラインおよびオンライン評価を通じて、モデルの性能を検証する。
論文 参考訳(メタデータ) (2024-07-23T20:38:23Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Optimizing fairness tradeoffs in machine learning with multiobjective
meta-models [0.913755431537592]
複数のコスト関数を持つ重み付き分類問題として、公平な機械学習タスクを定義するフレキシブルなフレームワークを提案する。
我々は、与えられた学習者のモデルトレーニングで使用されるサンプル重量を定義するために多目的最適化を使用し、重みを適応させ、公平性と精度の複数の指標を最適化する。
実世界の一連の問題において、このアプローチは、好ましいエラー/フェアネストレードオフを持つ解集合を見つけることによって、現在の最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-04-21T13:42:49Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Sample-Rank: Weak Multi-Objective Recommendations Using Rejection
Sampling [0.5156484100374059]
本稿では,マルチゴールサンプリングとユーザ関連度(Sample-Rank)のランク付けによるマーケットプレースの多目的目標への推薦手法を提案する。
提案手法の新規性は,望まれるマルチゴール分布からサンプリングするMOレコメンデーション問題を低減し,プロダクションフレンドリーな学習-ランクモデルを構築することである。
論文 参考訳(メタデータ) (2020-08-24T09:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。