論文の概要: Optimizing Long-term Value for Auction-Based Recommender Systems via
On-Policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.13747v2
- Date: Wed, 24 May 2023 01:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:53:26.892052
- Title: Optimizing Long-term Value for Auction-Based Recommender Systems via
On-Policy Reinforcement Learning
- Title(参考訳): オンポリシー強化学習によるオークション型レコメンダシステムの長期的価値最適化
- Authors: Ruiyang Xu, Jalaj Bhandari, Dmytro Korenkevych, Fan Liu, Yuchen He,
Alex Nikulkov, Zheqing Zhu
- Abstract要約: オークションベースのレコメンデーターシステムはオンライン広告プラットフォームで広く使われているが、通常、すぐに期待されるリターン指標に基づいてレコメンデーションスロットを割り当てるように最適化されている。
オークションベースのレコメンデーションシステムにおいて,長期リターン指標の最適化に強化学習を用いる。
- 参考スコア(独自算出の注目度): 4.980374959955476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auction-based recommender systems are prevalent in online advertising
platforms, but they are typically optimized to allocate recommendation slots
based on immediate expected return metrics, neglecting the downstream effects
of recommendations on user behavior. In this study, we employ reinforcement
learning to optimize for long-term return metrics in an auction-based
recommender system. Utilizing temporal difference learning, a fundamental
reinforcement learning algorithm, we implement an one-step policy improvement
approach that biases the system towards recommendations with higher long-term
user engagement metrics. This optimizes value over long horizons while
maintaining compatibility with the auction framework. Our approach is grounded
in dynamic programming ideas which show that our method provably improves upon
the existing auction-based base policy. Through an online A/B test conducted on
an auction-based recommender system which handles billions of impressions and
users daily, we empirically establish that our proposed method outperforms the
current production system in terms of long-term user engagement metrics.
- Abstract(参考訳): オークションベースのレコメンデーターシステムはオンライン広告プラットフォームで一般的であるが、通常、ユーザの行動に対するレコメンデーションの下流効果を無視して、すぐに期待されるリターン指標に基づいてレコメンデーションスロットを割り当てるように最適化されている。
本研究では,オークションベースのレコメンデーションシステムにおいて,長期リターン指標の最適化に強化学習を用いる。
基本強化学習アルゴリズムである時間差学習を用いて,長期ユーザエンゲージメント指標の高いレコメンデーションに向けてシステムをバイアスする1段階のポリシー改善手法を実装した。
これはオークションフレームワークとの互換性を維持しながら、長期にわたって価値を最適化する。
提案手法は,提案手法が既存のオークションベースポリシーを有効に改善することを示す動的プログラミングの考え方に基づいている。
オークションベースのレコメンデーションシステムで実施したオンラインA/Bテストを通じて,提案手法がユーザエンゲージメントの長期指標において,現在の生産システムより優れていることを実証的に証明した。
関連論文リスト
- Incorporate LLMs with Influential Recommender System [34.5820082133773]
プロアクティブレコメンデーションシステムは、ターゲットアイテムに対するユーザの関心を導くために、一連のアイテムを推奨します。
既存のメソッドは、ユーザが楽しむであろうアイテムで構成された一貫性のある影響パスを構築するのに苦労しています。
LLM-based Influence Path Planning (LLM-IPP) という新しいアプローチを導入する。
提案手法は,連続したレコメンデーションの一貫性を維持し,推奨項目のユーザ受け入れ性を高める。
論文 参考訳(メタデータ) (2024-09-07T13:41:37Z) - Towards Off-Policy Reinforcement Learning for Ranking Policies with
Human Feedback [47.03475305565384]
本稿では,ユーザの長期報酬を同時に最大化し,オフラインでランキングを最適化する,新たなオフ政治価値ランキング(VR)アルゴリズムを提案する。
EMプロセスは、将来の報酬とランキング基準の統合の恩恵を享受し、オンラインインタラクションなしで学習するために、リーンポリシーを導いてくれる。
論文 参考訳(メタデータ) (2024-01-17T04:19:33Z) - Fisher-Weighted Merge of Contrastive Learning Models in Sequential
Recommendation [0.0]
我々は、まず、フィッシャー・マージング法をシークエンシャル・レコメンデーションに適用し、それに関連する実践的な課題に対処し、解決する。
提案手法の有効性を実証し, シーケンシャルラーニングおよびレコメンデーションシステムにおける最先端化の可能性を明らかにする。
論文 参考訳(メタデータ) (2023-07-05T05:58:56Z) - Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。
我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。
どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文 参考訳(メタデータ) (2022-11-23T22:20:12Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - A Review on Pushing the Limits of Baseline Recommendation Systems with
the integration of Opinion Mining & Information Retrieval Techniques [0.0]
Recommendation Systemsでは、利用者の期待にタイムリーかつ関連性がありながら、コミュニティ内のトレンドアイテムを識別することができる。
より優れた品質のレコメンデーションを達成するために、ディープラーニングの手法が提案されている。
研究者たちは、最も効果的なレコメンデーションを提供するために、標準レコメンデーションシステムの能力を拡大しようと試みている。
論文 参考訳(メタデータ) (2022-05-03T22:13:33Z) - D2RLIR : an improved and diversified ranking function in interactive
recommendation systems based on deep reinforcement learning [0.3058685580689604]
本稿では,アクタ・クリティカルアーキテクチャを用いた深層強化学習に基づく推薦システムを提案する。
提案モデルでは,ユーザの嗜好に基づいて,多様かつ関連性の高いレコメンデーションリストを生成することができる。
論文 参考訳(メタデータ) (2021-10-28T13:11:29Z) - PURS: Personalized Unexpected Recommender System for Improving User
Satisfaction [76.98616102965023]
本稿では、予期せぬことを推奨プロセスに組み込んだ、新しいPersonalized Unexpected Recommender System(PURS)モデルについて述べる。
3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが最先端のベースラインアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2021-06-05T01:33:21Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。