論文の概要: Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL
- arxiv url: http://arxiv.org/abs/2106.00589v1
- Date: Tue, 1 Jun 2021 15:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:11:37.506886
- Title: Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL
- Title(参考訳): 短距離オフラインRLを用いた勧告システムの長期化
- Authors: Bogdan Mazoure, Paul Mineiro, Pavithra Srinath, Reza Sharifi Sedeh,
Doina Precup, Adith Swaminathan
- Abstract要約: セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 56.20835219296896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study session-based recommendation scenarios where we want to recommend
items to users during sequential interactions to improve their long-term
utility. Optimizing a long-term metric is challenging because the learning
signal (whether the recommendations achieved their desired goals) is delayed
and confounded by other user interactions with the system. Immediately
measurable proxies such as clicks can lead to suboptimal recommendations due to
misalignment with the long-term metric. Many works have applied episodic
reinforcement learning (RL) techniques for session-based recommendation but
these methods do not account for policy-induced drift in user intent across
sessions. We develop a new batch RL algorithm called Short Horizon Policy
Improvement (SHPI) that approximates policy-induced distribution shifts across
sessions. By varying the horizon hyper-parameter in SHPI, we recover well-known
policy improvement schemes in the RL literature. Empirical results on four
recommendation tasks show that SHPI can outperform matrix factorization,
offline bandits, and offline RL baselines. We also provide a stable and
computationally efficient implementation using weighted regression oracles.
- Abstract(参考訳): セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
長期的なメトリクスの最適化は、学習信号(推奨が望ましい目標を達成したかどうか)がシステムとの他のユーザインタラクションによって遅延して確立されるため、難しい。
クリックのような即時測定可能なプロキシは、長期的な指標とのミスアライメントによる最適以下の推奨につながる可能性がある。
多くの研究がセッションベースレコメンデーションにエピソード強化学習(RL)技術を適用しているが、これらの手法はセッション間でのユーザ意図の変動を考慮していない。
我々は,セッション間におけるポリシ誘起分布シフトを近似する新しいバッチrlアルゴリズムである short horizon policy improvement (shpi) を開発した。
SHPIの水平超パラメータを変化させることで、RL文献でよく知られた政策改善スキームを復元する。
4つのレコメンデーションタスクの実証結果から、SHPIは行列係数化、オフライン帯域幅、オフラインRLベースラインよりも優れていることが示された。
また,重み付き回帰オラクルを用いた安定かつ効率的な実装も提供する。
関連論文リスト
- An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation [14.506332665769746]
本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。
まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。
このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
論文 参考訳(メタデータ) (2024-08-15T09:26:26Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - ResAct: Reinforcing Long-term Engagement in Sequential Recommendation
with Residual Actor [36.0251263322305]
ResActは、オンラインサービスよりも近いが良いポリシーを求めている。
ベンチマークデータセットと大規模産業データセットを用いて実験を行う。
提案手法は,様々な長期エンゲージメント最適化タスクにおいて,最先端のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-06-01T02:45:35Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。