論文の概要: Towards Off-Policy Reinforcement Learning for Ranking Policies with
Human Feedback
- arxiv url: http://arxiv.org/abs/2401.08959v1
- Date: Wed, 17 Jan 2024 04:19:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:58:24.269537
- Title: Towards Off-Policy Reinforcement Learning for Ranking Policies with
Human Feedback
- Title(参考訳): 人的フィードバックによるランク付け政策の非政策強化学習に向けて
- Authors: Teng Xiao, Suhang Wang
- Abstract要約: 本稿では,ユーザの長期報酬を同時に最大化し,オフラインでランキングを最適化する,新たなオフ政治価値ランキング(VR)アルゴリズムを提案する。
EMプロセスは、将来の報酬とランキング基準の統合の恩恵を享受し、オンラインインタラクションなしで学習するために、リーンポリシーを導いてくれる。
- 参考スコア(独自算出の注目度): 47.03475305565384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Probabilistic learning to rank (LTR) has been the dominating approach for
optimizing the ranking metric, but cannot maximize long-term rewards.
Reinforcement learning models have been proposed to maximize user long-term
rewards by formulating the recommendation as a sequential decision-making
problem, but could only achieve inferior accuracy compared to LTR counterparts,
primarily due to the lack of online interactions and the characteristics of
ranking. In this paper, we propose a new off-policy value ranking (VR)
algorithm that can simultaneously maximize user long-term rewards and optimize
the ranking metric offline for improved sample efficiency in a unified
Expectation-Maximization (EM) framework. We theoretically and empirically show
that the EM process guides the leaned policy to enjoy the benefit of
integration of the future reward and ranking metric, and learn without any
online interactions. Extensive offline and online experiments demonstrate the
effectiveness of our methods.
- Abstract(参考訳): ランク付けのための確率論的学習(LTR)は、ランク付け基準を最適化するための支配的なアプローチであるが、長期的な報酬を最大化することはできない。
逐次的な意思決定問題として推奨を定式化することで,ユーザの長期報酬を最大化する強化学習モデルが提案されているが,オンラインインタラクションの欠如やランキングの特徴から,LTRに比べて精度が劣っている。
本稿では,ユーザの長期報酬を同時に最大化し,評価基準をオフラインに最適化し,統一期待値最大化(EM)フレームワークでサンプル効率を向上させるための新しいオフポリチック値ランキング(VR)アルゴリズムを提案する。
理論的および実証的に、emプロセスがリーンポリシーを導くことによって、将来の報酬とランク付け指標の統合のメリットを享受し、オンラインインタラクションなしで学習できることを示します。
大規模なオフラインおよびオンライン実験により,本手法の有効性が示された。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Bridging Offline-Online Evaluation with a Time-dependent and Popularity
Bias-free Offline Metric for Recommenders [3.130722489512822]
人気アイテムのペナルティ化と取引の時間を考慮したことで,ライブレコメンデーションシステムに最適なレコメンデーションモデルを選択する能力が大幅に向上することを示す。
本研究の目的は,レコメンデーションシステムの実際の応用に関係のあるオフライン評価と最適化基準を,学術コミュニティがよりよく理解できるようにすることである。
論文 参考訳(メタデータ) (2023-08-14T01:37:02Z) - Optimizing Long-term Value for Auction-Based Recommender Systems via
On-Policy Reinforcement Learning [4.980374959955476]
オークションベースのレコメンデーターシステムはオンライン広告プラットフォームで広く使われているが、通常、すぐに期待されるリターン指標に基づいてレコメンデーションスロットを割り当てるように最適化されている。
オークションベースのレコメンデーションシステムにおいて,長期リターン指標の最適化に強化学習を用いる。
論文 参考訳(メタデータ) (2023-05-23T07:04:38Z) - APS: Active Pretraining with Successor Features [96.24533716878055]
非エントロピーと後継指標であるHansenFastを再解釈して組み合わせることで、難解な相互情報を効率的に最適化できることを示す。
提案手法は,非エントロピーを用いて環境を探索し,探索したデータを効率的に活用して動作を学習する。
論文 参考訳(メタデータ) (2021-08-31T16:30:35Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。