論文の概要: ResAct: Reinforcing Long-term Engagement in Sequential Recommendation
with Residual Actor
- arxiv url: http://arxiv.org/abs/2206.02620v1
- Date: Wed, 1 Jun 2022 02:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-12 09:39:31.329816
- Title: ResAct: Reinforcing Long-term Engagement in Sequential Recommendation
with Residual Actor
- Title(参考訳): ResAct: Residual Actor を用いたシーケンシャルレコメンデーションにおける長期的エンゲージメントの強化
- Authors: Wanqi Xue, Qingpeng Cai, Ruohan Zhan, Dong Zheng, Peng Jiang, Bo An
- Abstract要約: 本稿では,オンライン・サービス・ポリシーに近いが,それに近い政策を求めるResActを提案する。
まず、複数の行動推定器をサンプリングすることで、オンラインサービスポリシーの動作を再構築する生成モデルを設計する。
第2に,動作改善のための残差を出力できる残差アクターを訓練するための効果的な学習パラダイムを設計する。
- 参考スコア(独自算出の注目度): 31.319494420299197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-term engagement is preferred over immediate engagement in sequential
recommendation as it directly affects product operational metrics such as daily
active users (DAUs) and dwell time. Meanwhile, reinforcement learning (RL) is
widely regarded as a promising framework for optimizing long-term engagement in
sequential recommendation. However, due to expensive online interactions, it is
very difficult for RL algorithms to perform state-action value estimation,
exploration and feature extraction when optimizing long-term engagement. In
this paper, we propose ResAct which seeks a policy that is close to, but better
than, the online-serving policy. In this way, we can collect sufficient data
near the learned policy so that state-action values can be properly estimated,
and there is no need to perform online exploration. Directly optimizing this
policy is difficult due to the huge policy space. ResAct instead solves it by
first reconstructing the online behaviors and then improving it. Our main
contributions are fourfold. First, we design a generative model which
reconstructs behaviors of the online-serving policy by sampling multiple action
estimators. Second, we design an effective learning paradigm to train the
residual actor which can output the residual for action improvement. Third, we
facilitate the extraction of features with two information theoretical
regularizers to confirm the expressiveness and conciseness of features. Fourth,
we conduct extensive experiments on a real world dataset consisting of millions
of sessions, and our method significantly outperforms the state-of-the-art
baselines in various of long term engagement optimization tasks.
- Abstract(参考訳): デイリーアクティブユーザ(DAU)や居住時間といったプロダクト運用メトリクスに直接影響するため、シーケンシャルなレコメンデーションにおける即時エンゲージメントよりも長期エンゲージメントが望ましい。
一方、強化学習(RL)は、長期的エンゲージメントを逐次的に最適化するための有望な枠組みとして広く見なされている。
しかし、高価なオンラインインタラクションのため、長期的エンゲージメントを最適化する際、RLアルゴリズムが状態-行動値の推定、探索、特徴抽出を行うのは非常に困難である。
本稿では,オンライン・サービス・ポリシーに近いが,それに近い政策を求めるResActを提案する。
このようにして、学習方針の近傍で十分なデータを収集し、状態行動の値を適切に推定できるようにし、オンライン探索を行う必要はない。
巨大な政策空間のため、この政策を直接最適化することは難しい。
代わりにResActは、まずオンラインの振る舞いを再構築し、改善することで解決する。
私たちの主な貢献は4倍です。
まず、複数の行動推定器をサンプリングすることで、オンラインサービスポリシーの動作を再構築する生成モデルを設計する。
第2に,動作改善のための残差を出力できる残差アクターを訓練するための効果的な学習パラダイムを設計する。
第3に、2つの情報理論正則化器による特徴の抽出を促進し、特徴の表現性と簡潔さを確認する。
第4に,我々は数百万のセッションからなる実世界のデータセットを広範囲に実験し,この手法は長期的なエンゲージメント最適化タスクにおいて最先端のベースラインを著しく上回っている。
関連論文リスト
- Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - An Efficient Continuous Control Perspective for Reinforcement-Learning-based Sequential Recommendation [14.506332665769746]
本稿では,UnderlinetextbfEfficient UnderlinetextbfContinuous UnderlinetextbfControl framework (ECoC)を提案する。
まず、統計的に検証された仮定に基づいて、正規化されたユーザとアイテム空間から抽象化された新しい統一されたアクション表現を提案する。
このプロセスでは、統合された行動の観点から戦略的な探索と方向性の制御が慎重に設計され、最終的な勧告決定に不可欠である。
論文 参考訳(メタデータ) (2024-08-15T09:26:26Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - Recommending the optimal policy by learning to act from temporal data [2.554326189662943]
本稿では,Reinforcement (RL) を用いて学習するAIベースのアプローチを提案する。
このアプローチは、実データと合成データセットに基づいて検証され、非政治的なDeep RLアプローチと比較される。
我々のアプローチがDeep RLアプローチと比較し、しばしば克服する能力は、時間的実行データしか利用できないシナリオにおいて、ホワイトボックスのRLテクニックの活用に寄与する。
論文 参考訳(メタデータ) (2023-03-16T10:30:36Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Improving Long-Term Metrics in Recommendation Systems using
Short-Horizon Offline RL [56.20835219296896]
セッションベースのレコメンデーションシナリオについて検討し、シーケンシャルなインタラクションの間、ユーザに対してアイテムを推薦し、長期的なユーティリティを改善する。
我々は、セッション間のポリシーによる分散シフトを近似するショートホライズンポリシー改善(SHPI)と呼ばれる新しいバッチRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-06-01T15:58:05Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。