論文の概要: Local Policy Improvement for Recommender Systems
- arxiv url: http://arxiv.org/abs/2212.11431v1
- Date: Thu, 22 Dec 2022 00:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 15:19:20.331342
- Title: Local Policy Improvement for Recommender Systems
- Title(参考訳): レコメンダシステムのための地域政策改善
- Authors: Dawen Liang, Nikos Vlassis
- Abstract要約: 対象ポリシーの期待される報酬の下位境界を計算し、最適化する一連の方法を提案する。
この局所的な政策改善パラダイムは特にレコメンデーションシステムに適していると我々は主張する。
- 参考スコア(独自算出の注目度): 8.617221361305901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recommender systems aim to answer the following question: given the items
that a user has interacted with, what items will this user likely interact with
next? Historically this problem is often framed as a predictive task via
(self-)supervised learning. In recent years, we have seen more emphasis placed
on approaching the recommendation problem from a policy optimization
perspective: learning a policy that maximizes some reward function (e.g., user
engagement). However, it is commonly the case in recommender systems that we
are only able to train a new policy given data collected from a
previously-deployed policy. The conventional way to address such a policy
mismatch is through importance sampling correction, which unfortunately comes
with its own limitations. In this paper, we suggest an alternative approach,
which involves the use of local policy improvement without off-policy
correction. Drawing from a number of related results in the fields of causal
inference, bandits, and reinforcement learning, we present a suite of methods
that compute and optimize a lower bound of the expected reward of the target
policy. Crucially, this lower bound is a function that is easy to estimate from
data, and which does not involve density ratios (such as those appearing in
importance sampling correction). We argue that this local policy improvement
paradigm is particularly well suited for recommender systems, given that in
practice the previously-deployed policy is typically of reasonably high
quality, and furthermore it tends to be re-trained frequently and gets
continuously updated. We discuss some practical recipes on how to apply some of
the proposed techniques in a sequential recommendation setting.
- Abstract(参考訳): レコメンダシステムは次のような質問に答えることを目標としている: ユーザが対話したアイテムを考えると、このユーザが次に取り扱うアイテムは何か?
歴史的に、この問題は(自己)教師付き学習を通じて予測タスクとして構成されることが多い。
近年では、報酬関数を最大化するポリシー(例えば、ユーザエンゲージメント)の学習という政策最適化の観点から、リコメンデーション問題へのアプローチに重点が置かれている。
しかし、これまでデプロイされたポリシーから収集されたデータからのみ、新しいポリシーをトレーニングできるようなレコメンデーションシステムでは、通常はそうである。
このような政策ミスマッチに対処する従来の方法は、重要なサンプリング修正によるものであり、残念ながら独自の制限が伴っている。
本稿では,オフ・ポリティクスの修正を必要とせず,地域政策の整備をともなう代替手法を提案する。
因果推論,盗賊,強化学習の分野における多くの関連する結果から,対象ポリシーの期待される報酬の下位限を計算し,最適化する一連の方法を提案する。
重要なのは、この下限はデータから容易に推定でき、密度比(重要サンプリング補正に見られるものなど)は含まない関数である。
この局所的な政策改善パラダイムは、特にレコメンデーションシステムに適しており、実際には、事前デプロイされた政策は通常、合理的に高い品質であり、さらに頻繁に再トレーニングされ、継続的に更新される傾向にある。
本稿では,提案手法のいくつかを逐次レコメンデーション設定で適用する方法について述べる。
関連論文リスト
- Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。
そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。
その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T13:56:03Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - CUP: Critic-Guided Policy Reuse [37.12379523150601]
Critic-gUided Policy reuse (CUP)は、任意の余分なコンポーネントのトレーニングを回避し、ソースポリシーを効率的に再利用するポリシー再利用アルゴリズムである。
CUPは、現在の目標ポリシーよりも最大の1段階の改善を持つソースポリシーを選択し、ガイダンスポリシーを形成する。
実験により、CUPは効率的な転送を実現し、ベースラインアルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-10-15T00:53:03Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - An Alternate Policy Gradient Estimator for Softmax Policies [36.48028448548086]
ソフトマックス政策のための新しいポリシー勾配推定器を提案する。
バンディットと古典的MDPベンチマークタスクを用いた分析と実験により,我々の推定器は政策飽和に対してより堅牢であることが示された。
論文 参考訳(メタデータ) (2021-12-22T02:01:19Z) - Supervised Off-Policy Ranking [145.3039527243585]
オフポリシー評価(OPE)は、他のポリシーによって生成されたデータを活用して、ターゲットポリシーを評価する。
本稿では,訓練方針と既知の実績を正しくランク付けすることで,政策スコアリングモデルを学習する教師付き非政治ランキングを提案する。
本手法は,上位3つのポリシーのうち,最良と最良の双方のランク相関と性能差の両面から,強力なベースラインOPE法より優れる。
論文 参考訳(メタデータ) (2021-07-03T07:01:23Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - First Order Constrained Optimization in Policy Space [19.00289722198614]
政策空間における一階制約最適化(FOCOPS)という新しい手法を提案する。
FOCOPSは、エージェントの全体的な報酬を最大化し、エージェントが一連のコスト制約を満たすことを保証します。
我々は,ロボット機関車の一連の作業において,簡単なアプローチがより良い性能を達成するという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-02-16T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。