Fugu-MT 論文翻訳(概要): A Scalable Probabilistic Model for Reward Optimizing Slate Recommendation

論文の概要: A Scalable Probabilistic Model for Reward Optimizing Slate Recommendation

arxiv url: http://arxiv.org/abs/2208.06263v1
Date: Wed, 10 Aug 2022 13:18:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-15 13:11:10.955198
Title: A Scalable Probabilistic Model for Reward Optimizing Slate Recommendation
Title（参考訳）: スレートレコメンデーションを最適化するスケーラブルな確率モデル
Authors: Imad Aouali, Achraf Ait Sidi Hammou, Sergey Ivanov, Otmane Sakhi, David Rohde, Flavian Vasile
Abstract要約: 本稿では,パーソナライズされたスレートレコメンデーションのためのスケーラブルな確率モデルであるPRR(Probabilistic Rank and Reward model)を紹介する。本手法は,報酬のみを使用するバンディット法や,ランクのみを使用するユーザの選好法よりも効率よく学習する。提案手法は,最大100万項目の大規模データセット上での速度と精度の両面での最先端技術である。
参考スコア（独自算出の注目度）: 9.104884285248115
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Probabilistic Rank and Reward model (PRR), a scalable probabilistic model for personalized slate recommendation. Our model allows state-of-the-art estimation of user interests in the following ubiquitous recommender system scenario: A user is shown a slate of K recommendations and the user chooses at most one of these K items. It is the goal of the recommender system to find the K items of most interest to a user in order to maximize the probability that the user interacts with the slate. Our contribution is to show that we can learn more effectively the probability of the recommendations being successful by combining the reward - whether the slate was clicked or not - and the rank - the item on the slate that was selected. Our method learns more efficiently than bandit methods that use only the reward, and user preference methods that use only the rank. It also provides similar or better estimation performance to independent inverse-propensity-score methods and is far more scalable. Our method is state of the art in terms of both speed and accuracy on massive datasets with up to 1 million items. Finally, our method allows fast delivery of recommendations powered by maximum inner product search (MIPS), making it suitable in extremely low latency domains such as computational advertising.
Abstract（参考訳）: 本稿では,パーソナライズされたスレートレコメンデーションのためのスケーラブルな確率モデルであるPRR(Probabilistic Rank and Reward model)を紹介する。本モデルでは,以下のユビキタスレコメンデーションシステムシナリオにおいて,ユーザの興味を最先端に推定することが可能である。ユーザがスレートと対話する確率を最大化するために、最も関心のあるK項目を見つけることが推奨システムの目標である。私たちの貢献は、スレートがクリックされたかどうかに関わらず報酬と、選択されたスレートの項目を組み合わせることで、推奨が成功する確率をより効果的に知ることができることを示しています。本手法は報酬のみを使用するbanditメソッドやランクのみを使用するユーザ嗜好メソッドよりも効率的に学習する。また、独立の逆確率スコア法と類似またはより良い推定性能を提供し、はるかにスケーラブルである。提案手法は,最大100万項目の大規模データセット上での速度と精度の両面での最先端技術である。最後に,提案手法により,最大内積探索(MIPS)を利用したレコメンデーションの迅速な配信が可能となり,計算広告などの極めて低レイテンシ領域に適合する。

関連論文リスト

Value Function Decomposition in Markov Recommendation Process [19.082512423102855]
本稿では,レコメンダ性能を向上させるためのオンライン強化学習フレームワークを提案する。これらの2つの因子は、元の時間差損失を分解することで、別々に近似できることを示す。アンタングル学習フレームワークは、より高速な学習と、アクション探索に対する堅牢性の向上により、より正確な推定を実現することができる。
論文参考訳（メタデータ） (2025-01-29T04:22:29Z)
Preference Optimization as Probabilistic Inference [21.95277469346728]
本稿では,好ましくない例や好ましくない例を活用できる手法を提案する。この柔軟性により、生成言語モデルをトレーニングするなど、さまざまな形式のフィードバックとモデルでシナリオに適用することが可能になります。
論文参考訳（メタデータ） (2024-10-05T14:04:03Z)
Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。 DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文参考訳（メタデータ） (2024-05-29T17:39:48Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文参考訳（メタデータ） (2024-05-20T23:59:26Z)
Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。軌道の適切な切り離しが性能向上に成功することを示す。
論文参考訳（メタデータ） (2023-05-07T19:41:57Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Meta-Wrapper: Differentiable Wrapping Operator for User Interest Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-06-28T03:28:15Z)
Quantifying Availability and Discovery in Recommender Systems via Stochastic Reachability [27.21058243752746]
そこで本稿では,ユーザへのコンテンツ推薦の最大確率を定量化するために,到達性に基づく評価手法を提案する。リーチビリティは、コンテンツの可用性のバイアスを検出し、ユーザに与えられる発見の機会の制限を診断するために使用することができる。明示的および暗黙的な評価の大規模なデータセットに基づいてトレーニングされた推薦アルゴリズムの評価を示す。
論文参考訳（メタデータ） (2021-06-30T16:18:12Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文参考訳（メタデータ） (2021-03-08T03:28:04Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。