論文の概要: Fast Offline Policy Optimization for Large Scale Recommendation
- arxiv url: http://arxiv.org/abs/2208.05327v4
- Date: Sat, 27 May 2023 07:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 03:52:56.370041
- Title: Fast Offline Policy Optimization for Large Scale Recommendation
- Title(参考訳): 大規模レコメンデーションのための高速オフラインポリシー最適化
- Authors: Otmane Sakhi, David Rohde, Alexandre Gilotte
- Abstract要約: 我々は、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。
私たちの貢献は3つの新しいアイデアの組み合わせに基づいている。
我々の推定器は、単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生成する。
- 参考スコア(独自算出の注目度): 74.78213147859236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalised interactive systems such as recommender systems require
selecting relevant items from massive catalogs dependent on context.
Reward-driven offline optimisation of these systems can be achieved by a
relaxation of the discrete problem resulting in policy learning or REINFORCE
style learning algorithms. Unfortunately, this relaxation step requires
computing a sum over the entire catalogue making the complexity of the
evaluation of the gradient (and hence each stochastic gradient descent
iterations) linear in the catalogue size. This calculation is untenable in many
real world examples such as large catalogue recommender systems, severely
limiting the usefulness of this method in practice. In this paper, we derive an
approximation of these policy learning algorithms that scale logarithmically
with the catalogue size. Our contribution is based upon combining three novel
ideas: a new Monte Carlo estimate of the gradient of a policy, the self
normalised importance sampling estimator and the use of fast maximum inner
product search at training time. Extensive experiments show that our algorithm
is an order of magnitude faster than naive approaches yet produces equally good
policies.
- Abstract(参考訳): 推薦システムのようなパーソナライズされた対話システムでは、コンテキストに依存する大量のカタログから関連する項目を選択する必要がある。
これらのシステムの報酬駆動オフライン最適化は、ポリシー学習やスタイル学習アルゴリズムの強化によって生じる離散的な問題を緩和することで達成することができる。
残念なことに、この緩和ステップではカタログ全体の和を計算し、カタログサイズで線形な勾配(したがって各確率的勾配降下イテレーション)の評価を複雑にする必要がある。
この計算は、大規模なカタログレコメンデータシステムのような実世界の多くの例では不可能であり、実際にはこの方法の有用性を著しく制限している。
本稿では,カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの近似を導出する。
我々の貢献は、政策の勾配の新たなモンテカルロ推定法、自己正規化重要度サンプリング推定法、訓練時の高速最大内積探索法という3つの新しいアイデアの組み合わせに基づいている。
広範な実験によって、我々のアルゴリズムは単純なアプローチよりも桁違いに速いが、等しく良いポリシーを生み出すことが示された。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Fast Slate Policy Optimization: Going Beyond Plackett-Luce [7.366405857677226]
本稿では,任意の報酬関数を与えられた大規模意思決定システムの最適化について述べる。
意思決定機能の新たな緩和から生まれた新しい政策のクラスを提案する。
これにより、巨大なアクション空間にスケールする単純で効率的な学習アルゴリズムが実現される。
論文 参考訳(メタデータ) (2023-08-03T07:13:27Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Learning-to-Rank at the Speed of Sampling: Plackett-Luce Gradient
Estimation With Minimal Computational Complexity [13.579420996461439]
本稿では,最良ソートアルゴリズムに匹敵する計算量で非バイアス勾配推定を行うPL-Rank-3アルゴリズムを提案する。
実験結果から,性能を損なうことなく,最適化に要する時間が大きく向上することが示唆された。
論文 参考訳(メタデータ) (2022-04-22T18:01:33Z) - Contextual Exploration Using a Linear Approximation Method Based on
Satisficing [0.0]
学習に必要な探索の量は、しばしば非常に多い。
深層強化学習はまた、人間がこれほど多くの探索を達成できないという超人的性能を持つ。
リスク感応性満足度(RS)の線形拡張である線形RS(LinRS)を提案する。
論文 参考訳(メタデータ) (2021-12-13T07:14:01Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。
入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文 参考訳(メタデータ) (2020-10-03T09:34:03Z) - Optimization of Graph Total Variation via Active-Set-based Combinatorial
Reconditioning [48.42916680063503]
本稿では,この問題クラスにおける近位アルゴリズムの適応型事前条件付け手法を提案する。
不活性エッジのネスト・フォレスト分解により局所収束速度が保証されることを示す。
この結果から,局所収束解析は近似アルゴリズムにおける可変指標選択の指針となることが示唆された。
論文 参考訳(メタデータ) (2020-02-27T16:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。