論文の概要: Reward Shaping for User Satisfaction in a REINFORCE Recommender
- arxiv url: http://arxiv.org/abs/2209.15166v1
- Date: Fri, 30 Sep 2022 01:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:56:14.528413
- Title: Reward Shaping for User Satisfaction in a REINFORCE Recommender
- Title(参考訳): ReINFORCEレコメンダにおけるユーザ満足のためのリワードシェイピング
- Authors: Konstantina Christakopoulou, Can Xu, Sai Zhang, Sriraj Badam, Trevor
Potter, Daniel Li, Hao Wan, Xinyang Yi, Ya Le, Chris Berg, Eric Bencomo
Dixon, Ed H. Chi, Minmin Chen
- Abstract要約: 本稿では,ユーザの満足度を満足するアクションを学習するためのポリシーネットワークと満足度計算ネットワークを提案する。
命令ネットワークの役割は、どのアクションがユーザに満足しているかを学習することであり、ポリシーネットワークは、REINFORCE上に構築され、どの項目を推奨するかを決定する。
- 参考スコア(独自算出の注目度): 24.65853598093849
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: How might we design Reinforcement Learning (RL)-based recommenders that
encourage aligning user trajectories with the underlying user satisfaction?
Three research questions are key: (1) measuring user satisfaction, (2)
combatting sparsity of satisfaction signals, and (3) adapting the training of
the recommender agent to maximize satisfaction. For measurement, it has been
found that surveys explicitly asking users to rate their experience with
consumed items can provide valuable orthogonal information to the
engagement/interaction data, acting as a proxy to the underlying user
satisfaction. For sparsity, i.e, only being able to observe how satisfied users
are with a tiny fraction of user-item interactions, imputation models can be
useful in predicting satisfaction level for all items users have consumed. For
learning satisfying recommender policies, we postulate that reward shaping in
RL recommender agents is powerful for driving satisfying user experiences.
Putting everything together, we propose to jointly learn a policy network and a
satisfaction imputation network: The role of the imputation network is to learn
which actions are satisfying to the user; while the policy network, built on
top of REINFORCE, decides which items to recommend, with the reward utilizing
the imputed satisfaction. We use both offline analysis and live experiments in
an industrial large-scale recommendation platform to demonstrate the promise of
our approach for satisfying user experiences.
- Abstract(参考訳): ユーザ満足度とユーザトラジェクトリの整合を奨励するReinforcement Learning(RL)ベースのレコメンデータを設計するにはどうすればよいのか?
3つの研究課題は,(1)満足度の測定,(2)満足度信号の空間性との戦い,(3)満足度を最大化するために推奨エージェントのトレーニングを適応させることである。
調査の結果,消費アイテムの使用経験を明示的に評価することで,利用者の満足度を指標として,エンゲージメント/インタラクションデータに貴重な直交情報を提供できることがわかった。
ユーザの満足度をほんのわずかなユーザストーリインタラクションでしか観察できないsparsityの場合、インプテーションモデルは、ユーザが消費したすべての項目の満足度レベルを予測するのに有用である。
レコメンダポリシを満足する学習には,rlレコメンダエージェントの報酬シェーピングがユーザエクスペリエンスを満足させる上で有効であることを仮定する。
インプテーション・ネットワークの役割は、どのアクションがユーザーに満足しているかを学習することであり、ポリシー・ネットワークは強化の上に構築され、推奨すべき項目を決定し、インプットを利用した報酬を提供する。
オフライン分析とライブ実験の両方を産業用大規模レコメンデーションプラットフォームで使用し,ユーザエクスペリエンスを満たすためのアプローチの可能性を実証する。
関連論文リスト
- Interactive Garment Recommendation with User in the Loop [77.35411131350833]
我々は,服を作るために補完的なアイテムを推奨するので,ユーザ反応を統合することでユーザプロファイルをその場で構築することを提案する。
本稿では,適切な衣服を提案し,ユーザのフィードバックを取り入れて推薦を改善することができる強化学習エージェントを提案する。
論文 参考訳(メタデータ) (2024-02-18T16:01:28Z) - PIE: Personalized Interest Exploration for Large-Scale Recommender
Systems [0.0]
これらの課題に対処するために,大規模レコメンデータシステムにおける探索のためのフレームワークを提案する。
我々の方法論は、最小限の修正で既存の大規模レコメンデータシステムに容易に統合できる。
私たちの仕事は、何十億ものユーザーを対象とする人気のビデオ発見および共有プラットフォームであるFacebook Watchで運用されている。
論文 参考訳(メタデータ) (2023-04-13T22:25:09Z) - Editable User Profiles for Controllable Text Recommendation [66.00743968792275]
制御可能なテキストレコメンデーションのための新しい概念値ボトルネックモデル LACE を提案する。
LACEは、人間の読みやすい概念の簡潔なセットで各ユーザーを表現する。
ユーザ文書に基づいて概念のパーソナライズされた表現を学習する。
論文 参考訳(メタデータ) (2023-04-09T14:52:18Z) - Recommending to Strategic Users [10.079698681921673]
ユーザーは、将来推奨されるコンテンツの種類に影響を与えるために、戦略的にコンテンツを選択する。
本稿では,戦略的消費を考慮した推奨品質向上のための3つの介入を提案する。
論文 参考訳(メタデータ) (2023-02-13T17:57:30Z) - Personalizing Intervened Network for Long-tailed Sequential User
Behavior Modeling [66.02953670238647]
タイルユーザーは、共同トレーニング後のヘッドユーザーよりも大幅に品質の低いレコメンデーションに悩まされる。
テールユーザーで個別に訓練されたモデルは、限られたデータのために依然として劣った結果が得られる。
本稿では,テールユーザの推薦性能を大幅に向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-19T02:50:19Z) - Causal Disentanglement with Network Information for Debiased
Recommendations [34.698181166037564]
近年の研究では、因果的観点からレコメンデーターシステムをモデル化することで、デビアスを提案する。
この設定における重要な課題は、隠れた共同設立者を説明することだ。
我々は,ネットワーク情報(すなわち,ユーザ・ソーシャルおよびユーザ・イテムネットワーク)を活用して,隠れた共同創設者をよりよく近似することを提案する。
論文 参考訳(メタデータ) (2022-04-14T20:55:11Z) - FEBR: Expert-Based Recommendation Framework for beneficial and
personalized content [77.86290991564829]
推奨コンテンツの質を評価するための見習い学習フレームワークであるFEBR(Expert-Based Recommendation Framework)を提案する。
このフレームワークは、推奨評価環境において専門家(信頼できると仮定される)の実証された軌跡を利用して、未知のユーティリティ機能を回復する。
ユーザ関心シミュレーション環境(RecSim)によるソリューションの性能評価を行う。
論文 参考訳(メタデータ) (2021-07-17T18:21:31Z) - Towards Content Provider Aware Recommender Systems: A Simulation Study
on the Interplay between User and Provider Utilities [34.288256311920904]
我々は,ユーザユーティリティの目的と,推奨コンテンツに関連するプロバイダの反事実的ユーティリティリフトを最適化するために,強化推奨エージェントecoagent(ecoagent)を構築した。
私たちは、我々のアプローチの利点と限界の両方に光を当てるシミュレーション実験をいくつか提供します。
論文 参考訳(メタデータ) (2021-05-06T00:02:58Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。
本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。
複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文 参考訳(メタデータ) (2020-05-09T16:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。