論文の概要: ResAct: Reinforcing Long-term Engagement in Sequential Recommendation
with Residual Actor
- arxiv url: http://arxiv.org/abs/2206.02620v2
- Date: Fri, 16 Jun 2023 08:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-19 18:33:38.175131
- Title: ResAct: Reinforcing Long-term Engagement in Sequential Recommendation
with Residual Actor
- Title(参考訳): ResAct: Residual Actor を用いたシーケンシャルレコメンデーションにおける長期的エンゲージメントの強化
- Authors: Wanqi Xue, Qingpeng Cai, Ruohan Zhan, Dong Zheng, Peng Jiang, Kun Gai,
Bo An
- Abstract要約: ResActは、オンラインサービスよりも近いが良いポリシーを求めている。
ベンチマークデータセットと大規模産業データセットを用いて実験を行う。
提案手法は,様々な長期エンゲージメント最適化タスクにおいて,最先端のベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 36.0251263322305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term engagement is preferred over immediate engagement in sequential
recommendation as it directly affects product operational metrics such as daily
active users (DAUs) and dwell time. Meanwhile, reinforcement learning (RL) is
widely regarded as a promising framework for optimizing long-term engagement in
sequential recommendation. However, due to expensive online interactions, it is
very difficult for RL algorithms to perform state-action value estimation,
exploration and feature extraction when optimizing long-term engagement. In
this paper, we propose ResAct which seeks a policy that is close to, but better
than, the online-serving policy. In this way, we can collect sufficient data
near the learned policy so that state-action values can be properly estimated,
and there is no need to perform online exploration. ResAct optimizes the policy
by first reconstructing the online behaviors and then improving it via a
Residual Actor. To extract long-term information, ResAct utilizes two
information-theoretical regularizers to confirm the expressiveness and
conciseness of features. We conduct experiments on a benchmark dataset and a
large-scale industrial dataset which consists of tens of millions of
recommendation requests. Experimental results show that our method
significantly outperforms the state-of-the-art baselines in various long-term
engagement optimization tasks.
- Abstract(参考訳): デイリーアクティブユーザ(DAU)や居住時間といったプロダクト運用メトリクスに直接影響するため、シーケンシャルなレコメンデーションにおける即時エンゲージメントよりも長期エンゲージメントが望ましい。
一方、強化学習(RL)は、長期的エンゲージメントを逐次的に最適化するための有望な枠組みとして広く見なされている。
しかし、高価なオンラインインタラクションのため、長期的エンゲージメントを最適化する際、RLアルゴリズムが状態-行動値の推定、探索、特徴抽出を行うのは非常に困難である。
本稿では,オンライン・サービス・ポリシーに近いが,それに近い政策を求めるResActを提案する。
このようにして、学習方針の近傍で十分なデータを収集し、状態行動の値を適切に推定できるようにし、オンライン探索を行う必要はない。
ResActは、まずオンラインの振る舞いを再構築し、Residual Actorを通じて改善することでポリシーを最適化する。
長期情報を抽出するため、resactは2つの情報理論正規化器を用いて特徴の表現力と簡潔さを確認する。
我々は、何千万ものレコメンデーション要求からなるベンチマークデータセットと大規模産業データセットで実験を行う。
実験の結果,本手法は様々な長期エンゲージメント最適化タスクにおいて,最先端のベースラインを著しく上回ることがわかった。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation [14.506332665769746]
本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。
まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。
このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
論文 参考訳(メタデータ) (2024-08-15T09:26:26Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Recommending the optimal policy by learning to act from temporal data [2.554326189662943]
本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
論文 参考訳(メタデータ) (2023-03-16T10:30:36Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。