論文の概要: Sim2Rec: A Simulator-based Decision-making Approach to Optimize
Real-World Long-term User Engagement in Sequential Recommender Systems
- arxiv url: http://arxiv.org/abs/2305.04832v1
- Date: Wed, 3 May 2023 19:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-14 21:08:56.017996
- Title: Sim2Rec: A Simulator-based Decision-making Approach to Optimize
Real-World Long-term User Engagement in Sequential Recommender Systems
- Title(参考訳): Sim2Rec:シーケンスレコメンダシステムにおける実世界の長期ユーザエンゲージメントを最適化するためのシミュレータに基づく意思決定手法
- Authors: Xiong-Hui Chen, Bowei He, Yang Yu, Qingyang Li, Zhiwei Qin, Wenjie
Shang, Jieping Ye, Chen Ma
- Abstract要約: 逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は強化学習(RL)に適している
RLには欠点があり、特に探索には多数のオンラインサンプルが必要である。
シミュレーション・ツー・レコメンデーション(Sim2Rec)というシミュレーターベースの推奨ポリシートレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 43.31078296862647
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-term user engagement (LTE) optimization in sequential recommender
systems (SRS) is shown to be suited by reinforcement learning (RL) which finds
a policy to maximize long-term rewards. Meanwhile, RL has its shortcomings,
particularly requiring a large number of online samples for exploration, which
is risky in real-world applications. One of the appealing ways to avoid the
risk is to build a simulator and learn the optimal recommendation policy in the
simulator. In LTE optimization, the simulator is to simulate multiple users'
daily feedback for given recommendations. However, building a user simulator
with no reality-gap, i.e., can predict user's feedback exactly, is unrealistic
because the users' reaction patterns are complex and historical logs for each
user are limited, which might mislead the simulator-based recommendation
policy. In this paper, we present a practical simulator-based recommender
policy training approach, Simulation-to-Recommendation (Sim2Rec) to handle the
reality-gap problem for LTE optimization. Specifically, Sim2Rec introduces a
simulator set to generate various possibilities of user behavior patterns, then
trains an environment-parameter extractor to recognize users' behavior patterns
in the simulators. Finally, a context-aware policy is trained to make the
optimal decisions on all of the variants of the users based on the inferred
environment-parameters. The policy is transferable to unseen environments
(e.g., the real world) directly as it has learned to recognize all various user
behavior patterns and to make the correct decisions based on the inferred
environment-parameters. Experiments are conducted in synthetic environments and
a real-world large-scale ride-hailing platform, DidiChuxing. The results show
that Sim2Rec achieves significant performance improvement, and produces robust
recommendations in unseen environments.
- Abstract(参考訳): 逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は、長期報酬を最大化するためのポリシーを見出した強化学習(RL)に適している。
一方、rlには欠点があり、特に、実世界のアプリケーションではリスクが高い、探索のために大量のオンラインサンプルを必要とする。
リスクを避けるための魅力的な方法の1つは、シミュレータを構築し、シミュレータで最適な推奨ポリシーを学ぶことである。
lte最適化では、特定のレコメンデーションに対して、複数のユーザの日々のフィードバックをシミュレートする。
しかし,ユーザの反応パターンが複雑で,ユーザ毎の履歴ログが限られており,シミュレータベースの推奨ポリシを誤解させる可能性があるため,現実的なフィードバックを正確に予測できるユーザシミュレータの構築は現実的ではない。
本稿では,lte最適化における現実のギャップ問題に対処するための,シミュレータベースのレコメンダポリシトレーニング手法であるsim2recを提案する。
具体的には、sim2recはユーザ行動パターンの様々な可能性を生成するシミュレータセットを導入し、次に環境パラメータ抽出器を訓練して、シミュレータ内のユーザの行動パターンを認識する。
最後に、推定された環境パラメータに基づいて、ユーザのすべての変種について最適な決定を行うように、コンテキスト認識ポリシーを訓練する。
ポリシーは、すべてのユーザの行動パターンを認識し、推論された環境パラメータに基づいて正しい決定を行うために、直接、目に見えない環境(現実世界など)に転送可能である。
実験は、合成環境と現実世界の大規模な配車プラットフォームDidiChuxingで行われた。
その結果、Sim2Recは大幅な性能向上を実現し、目に見えない環境で堅牢なレコメンデーションを生成することがわかった。
関連論文リスト
- USimAgent: Large Language Models for Simulating Search Users [33.17004578463697]
大規模言語モデル(LLM)は、人間レベルの知能をシミュレートする可能性を示している。
本稿では,LLMに基づくユーザ検索行動シミュレータUSimAgentを紹介する。
提案するシミュレータは,検索中のユーザのクエリ,クリック,停止をシミュレートし,完全な検索セッションを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T07:40:54Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Online Planning in POMDPs with Self-Improving Simulators [17.722070992253638]
私たちはオンラインで、時間とともに改善する近似的だがはるかに高速なシミュレータを学びます。
近似シミュレータが学習中に確実に効率的に計画を行うため,シミュレーション毎にどのシミュレータを使うかを適応的に決定する手法を開発した。
2つの大きなドメインの実験的結果は、POMCPと統合すると、我々のアプローチは時間とともに効率を向上して計画できることを示している。
論文 参考訳(メタデータ) (2022-01-27T09:41:59Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - RecSim NG: Toward Principled Uncertainty Modeling for Recommender
Ecosystems [35.302081092634985]
RecSim NGはレコメンダシステムのシミュレーションのための確率的プラットフォームである。
推論と潜在変数モデル学習のためのツールを提供する。
レコメンダーエコシステムの透過的なエンドツーエンドモデルを作成するために使用できます。
論文 参考訳(メタデータ) (2021-03-14T22:37:42Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。