論文の概要: A Scalable Probabilistic Model for Reward Optimizing Slate
Recommendation
- arxiv url: http://arxiv.org/abs/2208.06263v1
- Date: Wed, 10 Aug 2022 13:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:11:10.955198
- Title: A Scalable Probabilistic Model for Reward Optimizing Slate
Recommendation
- Title(参考訳): スレートレコメンデーションを最適化するスケーラブルな確率モデル
- Authors: Imad Aouali, Achraf Ait Sidi Hammou, Sergey Ivanov, Otmane Sakhi,
David Rohde, Flavian Vasile
- Abstract要約: 本稿では,パーソナライズされたスレートレコメンデーションのためのスケーラブルな確率モデルであるPRR(Probabilistic Rank and Reward model)を紹介する。
本手法は,報酬のみを使用するバンディット法や,ランクのみを使用するユーザの選好法よりも効率よく学習する。
提案手法は,最大100万項目の大規模データセット上での速度と精度の両面での最先端技術である。
- 参考スコア(独自算出の注目度): 9.104884285248115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Probabilistic Rank and Reward model (PRR), a scalable
probabilistic model for personalized slate recommendation. Our model allows
state-of-the-art estimation of user interests in the following ubiquitous
recommender system scenario: A user is shown a slate of K recommendations and
the user chooses at most one of these K items. It is the goal of the
recommender system to find the K items of most interest to a user in order to
maximize the probability that the user interacts with the slate. Our
contribution is to show that we can learn more effectively the probability of
the recommendations being successful by combining the reward - whether the
slate was clicked or not - and the rank - the item on the slate that was
selected. Our method learns more efficiently than bandit methods that use only
the reward, and user preference methods that use only the rank. It also
provides similar or better estimation performance to independent
inverse-propensity-score methods and is far more scalable. Our method is state
of the art in terms of both speed and accuracy on massive datasets with up to 1
million items. Finally, our method allows fast delivery of recommendations
powered by maximum inner product search (MIPS), making it suitable in extremely
low latency domains such as computational advertising.
- Abstract(参考訳): 本稿では,パーソナライズされたスレートレコメンデーションのためのスケーラブルな確率モデルであるPRR(Probabilistic Rank and Reward model)を紹介する。
本モデルでは,以下のユビキタスレコメンデーションシステムシナリオにおいて,ユーザの興味を最先端に推定することが可能である。
ユーザがスレートと対話する確率を最大化するために、最も関心のあるK項目を見つけることが推奨システムの目標である。
私たちの貢献は、スレートがクリックされたかどうかに関わらず報酬と、選択されたスレートの項目を組み合わせることで、推奨が成功する確率をより効果的に知ることができることを示しています。
本手法は報酬のみを使用するbanditメソッドやランクのみを使用するユーザ嗜好メソッドよりも効率的に学習する。
また、独立の逆確率スコア法と類似またはより良い推定性能を提供し、はるかにスケーラブルである。
提案手法は,最大100万項目の大規模データセット上での速度と精度の両面での最先端技術である。
最後に,提案手法により,最大内積探索(MIPS)を利用したレコメンデーションの迅速な配信が可能となり,計算広告などの極めて低レイテンシ領域に適合する。
関連論文リスト
- Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。
この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文 参考訳(メタデータ) (2024-10-05T14:04:03Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Meta-Wrapper: Differentiable Wrapping Operator for User Interest
Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。
近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。
そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-06-28T03:28:15Z) - Quantifying Availability and Discovery in Recommender Systems via
Stochastic Reachability [27.21058243752746]
そこで本稿では,ユーザへのコンテンツ推薦の最大確率を定量化するために,到達性に基づく評価手法を提案する。
リーチビリティは、コンテンツの可用性のバイアスを検出し、ユーザに与えられる発見の機会の制限を診断するために使用することができる。
明示的および暗黙的な評価の大規模なデータセットに基づいてトレーニングされた推薦アルゴリズムの評価を示す。
論文 参考訳(メタデータ) (2021-06-30T16:18:12Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。