論文の概要: Sim2Rec: A Simulator-based Decision-making Approach to Optimize
Real-World Long-term User Engagement in Sequential Recommender Systems
- arxiv url: http://arxiv.org/abs/2305.04832v1
- Date: Wed, 3 May 2023 19:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-14 21:08:56.017996
- Title: Sim2Rec: A Simulator-based Decision-making Approach to Optimize
Real-World Long-term User Engagement in Sequential Recommender Systems
- Title(参考訳): Sim2Rec:シーケンスレコメンダシステムにおける実世界の長期ユーザエンゲージメントを最適化するためのシミュレータに基づく意思決定手法
- Authors: Xiong-Hui Chen, Bowei He, Yang Yu, Qingyang Li, Zhiwei Qin, Wenjie
Shang, Jieping Ye, Chen Ma
- Abstract要約: 逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は強化学習(RL)に適している
RLには欠点があり、特に探索には多数のオンラインサンプルが必要である。
シミュレーション・ツー・レコメンデーション(Sim2Rec)というシミュレーターベースの推奨ポリシートレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 43.31078296862647
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-term user engagement (LTE) optimization in sequential recommender
systems (SRS) is shown to be suited by reinforcement learning (RL) which finds
a policy to maximize long-term rewards. Meanwhile, RL has its shortcomings,
particularly requiring a large number of online samples for exploration, which
is risky in real-world applications. One of the appealing ways to avoid the
risk is to build a simulator and learn the optimal recommendation policy in the
simulator. In LTE optimization, the simulator is to simulate multiple users'
daily feedback for given recommendations. However, building a user simulator
with no reality-gap, i.e., can predict user's feedback exactly, is unrealistic
because the users' reaction patterns are complex and historical logs for each
user are limited, which might mislead the simulator-based recommendation
policy. In this paper, we present a practical simulator-based recommender
policy training approach, Simulation-to-Recommendation (Sim2Rec) to handle the
reality-gap problem for LTE optimization. Specifically, Sim2Rec introduces a
simulator set to generate various possibilities of user behavior patterns, then
trains an environment-parameter extractor to recognize users' behavior patterns
in the simulators. Finally, a context-aware policy is trained to make the
optimal decisions on all of the variants of the users based on the inferred
environment-parameters. The policy is transferable to unseen environments
(e.g., the real world) directly as it has learned to recognize all various user
behavior patterns and to make the correct decisions based on the inferred
environment-parameters. Experiments are conducted in synthetic environments and
a real-world large-scale ride-hailing platform, DidiChuxing. The results show
that Sim2Rec achieves significant performance improvement, and produces robust
recommendations in unseen environments.
- Abstract(参考訳): 逐次リコメンデータシステム(SRS)における長期ユーザエンゲージメント(LTE)最適化は、長期報酬を最大化するためのポリシーを見出した強化学習(RL)に適している。
一方、rlには欠点があり、特に、実世界のアプリケーションではリスクが高い、探索のために大量のオンラインサンプルを必要とする。
リスクを避けるための魅力的な方法の1つは、シミュレータを構築し、シミュレータで最適な推奨ポリシーを学ぶことである。
lte最適化では、特定のレコメンデーションに対して、複数のユーザの日々のフィードバックをシミュレートする。
しかし,ユーザの反応パターンが複雑で,ユーザ毎の履歴ログが限られており,シミュレータベースの推奨ポリシを誤解させる可能性があるため,現実的なフィードバックを正確に予測できるユーザシミュレータの構築は現実的ではない。
本稿では,lte最適化における現実のギャップ問題に対処するための,シミュレータベースのレコメンダポリシトレーニング手法であるsim2recを提案する。
具体的には、sim2recはユーザ行動パターンの様々な可能性を生成するシミュレータセットを導入し、次に環境パラメータ抽出器を訓練して、シミュレータ内のユーザの行動パターンを認識する。
最後に、推定された環境パラメータに基づいて、ユーザのすべての変種について最適な決定を行うように、コンテキスト認識ポリシーを訓練する。
ポリシーは、すべてのユーザの行動パターンを認識し、推論された環境パラメータに基づいて正しい決定を行うために、直接、目に見えない環境(現実世界など)に転送可能である。
実験は、合成環境と現実世界の大規模な配車プラットフォームDidiChuxingで行われた。
その結果、Sim2Recは大幅な性能向上を実現し、目に見えない環境で堅牢なレコメンデーションを生成することがわかった。
関連論文リスト
- LLM-Powered User Simulator for Recommender System [29.328839982869923]
LLMを利用したユーザシミュレータを導入し、アイテムとのユーザエンゲージメントを明示的にシミュレートする。
具体的には、ユーザ嗜好の明示的なロジックを特定し、LCMを活用してアイテムの特性を分析し、ユーザ感情を抽出する。
本稿では,ユーザインタラクションシミュレーションの論理的および統計的洞察を相乗化するアンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-12-22T12:00:04Z) - LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
本稿では,生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
さらなる改善のためにシミュレーションで現実世界の環境を再構築する。
継続的なトレーニングを活用することで、LoopSRは強力なベースラインに比べて優れたデータ効率を達成する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - Algorithmic Drift: A Simulation Framework to Study the Effects of Recommender Systems on User Preferences [7.552217586057245]
本稿では,長期シナリオにおけるユーザ-リコメンダ間のインタラクションを模倣するシミュレーションフレームワークを提案する。
本稿では,ユーザの嗜好に対するアルゴリズムの影響を定量化する2つの新しい指標について紹介する。
論文 参考訳(メタデータ) (2024-09-24T21:54:22Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - A LLM-based Controllable, Scalable, Human-Involved User Simulator Framework for Conversational Recommender Systems [14.646529557978512]
Conversational Recommender System (CRS) はユーザからのリアルタイムフィードバックを利用して好みを動的にモデル化する。
LLM(Large Language Models)は、計算能力の新たな時代を迎えている。
ユーザシミュレータの動作を管理するCSHI(Controlable, scalable, and human-Involved)シミュレータフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-13T03:02:56Z) - How Reliable is Your Simulator? Analysis on the Limitations of Current LLM-based User Simulators for Conversational Recommendation [14.646529557978512]
本稿では,対話型レコメンダシステムのためのユーザシミュレータ構築におけるLarge Language Modelsの使用制限について分析する。
会話履歴やユーザシミュレータの応答で発生するデータ漏洩は,評価結果を膨らませる結果となる。
そこで我々はSimpleUserSimを提案する。
論文 参考訳(メタデータ) (2024-03-25T04:21:06Z) - Metaphorical User Simulators for Evaluating Task-oriented Dialogue
Systems [80.77917437785773]
タスク指向対話システム(TDS)は、主にオフラインまたは人間による評価によって評価される。
本稿では,エンド・ツー・エンドのTDS評価のためのメタファ型ユーザシミュレータを提案する。
また,異なる機能を持つ対話システムなどの変種を生成するためのテスタベースの評価フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-02T05:11:03Z) - Auto-Tuned Sim-to-Real Transfer [143.44593793640814]
シミュレーションで訓練されたポリシーは、しばしば現実世界に移されるときに失敗する。
ドメインのランダム化のようなこの問題に取り組む現在のアプローチには、事前の知識とエンジニアリングが必要である。
実世界に合わせてシミュレータシステムパラメータを自動的にチューニングする手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:55Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。