論文の概要: From Clicks to Conversions: Recommendation for long-term reward
- arxiv url: http://arxiv.org/abs/2009.00497v1
- Date: Tue, 1 Sep 2020 14:53:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 01:45:54.332780
- Title: From Clicks to Conversions: Recommendation for long-term reward
- Title(参考訳): クリックから変換へ:長期的な報酬を推奨
- Authors: Philom\`ene Chagniot, Flavian Vasile, David Rohde
- Abstract要約: 本稿では,RecoGymシミュレーション環境における長期報酬をモデル化するためのフレームワークを提案する。
我々は、変換最適化レコメンデーションにおいて、最後のクリック属性方式で導入された問題を示す。
- 参考スコア(独自算出の注目度): 9.328939151593401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems are often optimised for short-term reward: a
recommendation is considered successful if a reward (e.g. a click) can be
observed immediately after the recommendation. The advantage of this framework
is that with some reasonable (although questionable) assumptions, it allows
familiar supervised learning tools to be used for the recommendation task.
However, it means that long-term business metrics, e.g. sales or retention are
ignored. In this paper we introduce a framework for modeling long-term rewards
in the RecoGym simulation environment. We use this newly introduced
functionality to showcase problems introduced by the last-click attribution
scheme in the case of conversion-optimized recommendations and propose a simple
extension that leads to state-of-the-art results.
- Abstract(参考訳): リコメンダシステムは短期的な報酬のために最適化されることが多く、リコメンデーション(例えばクリック)がリコメンデーションの直後に見られる場合、リコメンデーションは成功と見なされる。
このフレームワークの利点は、合理的な(しかし疑わしい)仮定によって、よく知られた教師付き学習ツールがレコメンデーションタスクに使用できることである。
しかし、売上や保持といった長期的なビジネス指標は無視されることを意味する。
本稿では,recogymシミュレーション環境における長期報酬をモデル化する枠組みを提案する。
我々は,この新しく導入された機能を用いて,コンバージョン最適化推奨の場合にラストクリック帰属スキームによって引き起こされる問題を提示し,最先端の結果をもたらす簡単な拡張を提案する。
関連論文リスト
- CSRec: Rethinking Sequential Recommendation from A Causal Perspective [25.69446083970207]
シーケンシャルなレコメンデータシステム(RecSys)の本質は、ユーザが意思決定を行う方法を理解することです。
我々は、CSRec(Causal Sequential Recommendation)と呼ばれる、シーケンシャルレコメンデーションの新しい定式化を提案する。
CSRecは、シーケンシャルなコンテキスト内で推奨項目が受け入れられる確率を予測し、現在の決定がどのようになされるかをバックトラックすることを目的としている。
論文 参考訳(メタデータ) (2024-08-23T23:19:14Z) - AdaRec: Adaptive Sequential Recommendation for Reinforcing Long-term
User Engagement [25.18963930580529]
本稿では,AdaRec(Adaptive Sequential Recommendation)と呼ばれる新しいパラダイムを紹介し,この問題に対処する。
AdaRecは、ユーザのインタラクション軌跡から潜時情報を抽出する、新しい距離ベース表現損失を提案する。
シミュレーションベースとライブシーケンシャルなレコメンデーションタスクの両方において、広範な実証分析を行う。
論文 参考訳(メタデータ) (2023-10-06T02:45:21Z) - RecRec: Algorithmic Recourse for Recommender Systems [41.97186998947909]
特定の予測やレコメンデーションを行う上で、すべての利害関係者がモデルの理論的根拠を理解することが不可欠です。
これは、リコメンデーションシステムに依存するコンテンツプロバイダにとって特に当てはまります。
本稿では,コンテンツ提供者を対象としたレコメンデーションシステムのためのレコメンデーションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-28T22:26:50Z) - Optimizing Long-term Value for Auction-Based Recommender Systems via
On-Policy Reinforcement Learning [4.980374959955476]
オークションベースのレコメンデーターシステムはオンライン広告プラットフォームで広く使われているが、通常、すぐに期待されるリターン指標に基づいてレコメンデーションスロットを割り当てるように最適化されている。
オークションベースのレコメンデーションシステムにおいて,長期リターン指標の最適化に強化学習を用いる。
論文 参考訳(メタデータ) (2023-05-23T07:04:38Z) - Improving Recommendation Relevance by simulating User Interest [77.34726150561087]
不活発な項目のランクを反復的に減らすことにより、リコメンデーション"レコメンデーション"が、簡単かつ透過的に維持可能であることを観察する。
この研究の背景にある基本的なアイデアは、オンラインレコメンデーションシステムの文脈で特許を取得している。
論文 参考訳(メタデータ) (2023-02-03T03:35:28Z) - PrefRec: Recommender Systems with Human Preferences for Reinforcing
Long-term User Engagement [36.95056214316392]
我々は、人間の嗜好(または嗜好に基づくレコメンダシステム)を備えた新しいパラダイム、レコメンダシステムを提案する。
PrefRecでは、複雑な報酬工学を回避しつつ、長期的な目標を最適化する上でRLの利点を完全に活用できます。
論文 参考訳(メタデータ) (2022-12-06T06:21:17Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - FEBR: Expert-Based Recommendation Framework for beneficial and
personalized content [77.86290991564829]
推奨コンテンツの質を評価するための見習い学習フレームワークであるFEBR(Expert-Based Recommendation Framework)を提案する。
このフレームワークは、推奨評価環境において専門家(信頼できると仮定される)の実証された軌跡を利用して、未知のユーティリティ機能を回復する。
ユーザ関心シミュレーション環境(RecSim)によるソリューションの性能評価を行う。
論文 参考訳(メタデータ) (2021-07-17T18:21:31Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Reward Constrained Interactive Recommendation with Natural Language
Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。
具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。
提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文 参考訳(メタデータ) (2020-05-04T16:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。