論文の概要: Fast Offline Policy Optimization for Large Scale Recommendation
- arxiv url: http://arxiv.org/abs/2208.05327v1
- Date: Mon, 8 Aug 2022 11:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:26:17.051234
- Title: Fast Offline Policy Optimization for Large Scale Recommendation
- Title(参考訳): 大規模レコメンデーションのための高速オフラインポリシー最適化
- Authors: Otmane Sakhi, David Rohde, Alexandre Gilotte
- Abstract要約: カタログサイズと対数的にスケールするポリシー学習アルゴリズムの優れた近似を生成することができるかを示す。
我々のアルゴリズムは、単純アプローチよりも桁違いに速いが、等しく良いポリシーを生成する。
- 参考スコア(独自算出の注目度): 74.78213147859236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalised interactive systems such as recommender systems require
selecting relevant items dependent on context. Production systems need to
identify the items rapidly from very large catalogues which can be efficiently
solved using maximum inner product search technology. Offline optimisation of
maximum inner product search can be achieved by a relaxation of the discrete
problem resulting in policy learning or reinforce style learning algorithms.
Unfortunately this relaxation step requires computing a sum over the entire
catalogue making the complexity of the evaluation of the gradient (and hence
each stochastic gradient descent iterations) linear in the catalogue size. This
calculation is untenable in many real world examples such as large catalogue
recommender systems severely limiting the usefulness of this method in
practice. In this paper we show how it is possible to produce an excellent
approximation of these policy learning algorithms that scale logarithmically
with the catalogue size. Our contribution is based upon combining three novel
ideas: a new Monte Carlo estimate of the gradient of a policy, the self
normalised importance sampling estimator and the use of fast maximum inner
product search at training time. Extensive experiments show our algorithm is an
order of magnitude faster than naive approaches yet produces equally good
policies.
- Abstract(参考訳): 推薦システムのようなパーソナライズされた対話システムは、コンテキストに依存する関連する項目を選択する必要がある。
生産システムは、最大内積探索技術を用いて効率的に解決できる非常に大きなカタログから素早くアイテムを識別する必要がある。
最大内部積探索のオフライン最適化は、ポリシー学習や強化スタイル学習アルゴリズムをもたらす離散的な問題の緩和によって達成できる。
残念なことに、この緩和ステップではカタログ全体の和を計算し、カタログサイズで線形な勾配(したがって各確率的勾配降下イテレーション)の評価を複雑にする。
この計算は、大カタログレコメンデータシステムのような実世界の多くの例では、実際にこの方法の有用性を厳しく制限している。
本稿では、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの優れた近似を生成することができるかを示す。
我々の貢献は、政策の勾配の新たなモンテカルロ推定法、自己正規化重要度サンプリング推定法、訓練時の高速最大内積探索法という3つの新しいアイデアの組み合わせに基づいている。
広範な実験により、このアルゴリズムはナイーブなアプローチよりも桁違いに速いが、等しく良いポリシーをつくりだすことが示されている。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Fast Slate Policy Optimization: Going Beyond Plackett-Luce [7.366405857677226]
本稿では,任意の報酬関数を与えられた大規模意思決定システムの最適化について述べる。
意思決定機能の新たな緩和から生まれた新しい政策のクラスを提案する。
これにより、巨大なアクション空間にスケールする単純で効率的な学習アルゴリズムが実現される。
論文 参考訳(メタデータ) (2023-08-03T07:13:27Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Learning-to-Rank at the Speed of Sampling: Plackett-Luce Gradient
Estimation With Minimal Computational Complexity [13.579420996461439]
本稿では,最良ソートアルゴリズムに匹敵する計算量で非バイアス勾配推定を行うPL-Rank-3アルゴリズムを提案する。
実験結果から,性能を損なうことなく,最適化に要する時間が大きく向上することが示唆された。
論文 参考訳(メタデータ) (2022-04-22T18:01:33Z) - Contextual Exploration Using a Linear Approximation Method Based on
Satisficing [0.0]
学習に必要な探索の量は、しばしば非常に多い。
深層強化学習はまた、人間がこれほど多くの探索を達成できないという超人的性能を持つ。
リスク感応性満足度(RS)の線形拡張である線形RS(LinRS)を提案する。
論文 参考訳(メタデータ) (2021-12-13T07:14:01Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Learning the Step-size Policy for the Limited-Memory
Broyden-Fletcher-Goldfarb-Shanno Algorithm [3.7470451129384825]
本稿では,L-BFGSアルゴリズムのステップサイズポリシの学習方法について考察する。
入力として電流勾配の局所的な情報を用いたニューラルネットワークアーキテクチャを提案する。
ステップ長ポリシは、同様の最適化問題のデータから学習され、目的関数のさらなる評価を回避し、出力ステップが予め定義された間隔内に留まることを保証します。
論文 参考訳(メタデータ) (2020-10-03T09:34:03Z) - Optimization of Graph Total Variation via Active-Set-based Combinatorial
Reconditioning [48.42916680063503]
本稿では,この問題クラスにおける近位アルゴリズムの適応型事前条件付け手法を提案する。
不活性エッジのネスト・フォレスト分解により局所収束速度が保証されることを示す。
この結果から,局所収束解析は近似アルゴリズムにおける可変指標選択の指針となることが示唆された。
論文 参考訳(メタデータ) (2020-02-27T16:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。