論文の概要: SlateFree: a Model-Free Decomposition for Reinforcement Learning with
Slate Actions
- arxiv url: http://arxiv.org/abs/2209.01876v1
- Date: Mon, 5 Sep 2022 10:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:28:25.451048
- Title: SlateFree: a Model-Free Decomposition for Reinforcement Learning with
Slate Actions
- Title(参考訳): SlateFree: Slate Actionsを用いた強化学習のためのモデルフリー分解
- Authors: Anastasios Giovanidis
- Abstract要約: 逐次的なレコメンデーションの問題を考慮し、各ステップでエージェントがユーザに対して$N$の異なるアイテムのスレートを提案する。
そこで本研究では,SARSAとQ-ラーニングアルゴリズムを新たに提案し,事前のユーザ知識を必要とせず,ステップ毎に$N$の並列反復処理を行う。
- 参考スコア(独自算出の注目度): 5.647516208808729
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of sequential recommendations, where at each step an
agent proposes some slate of $N$ distinct items to a user from a much larger
catalog of size $K>>N$. The user has unknown preferences towards the
recommendations and the agent takes sequential actions that optimise (in our
case minimise) some user-related cost, with the help of Reinforcement Learning.
The possible item combinations for a slate is $\binom{K}{N}$, an enormous
number rendering value iteration methods intractable. We prove that the
slate-MDP can actually be decomposed using just $K$ item-related $Q$ functions
per state, which describe the problem in a more compact and efficient way.
Based on this, we propose a novel model-free SARSA and Q-learning algorithm
that performs $N$ parallel iterations per step, without any prior user
knowledge. We call this method \texttt{SlateFree}, i.e. free-of-slates, and we
show numerically that it converges very fast to the exact optimum for arbitrary
user profiles, and that it outperforms alternatives from the literature.
- Abstract(参考訳): 逐次的なレコメンデーションの問題は,各ステップでエージェントが,より大きなサイズのカタログである$K>>N$から,ユーザに対してN$の異なるアイテムのスレートを提示する,という問題だ。
ユーザにはレコメンデーションに対する選好が不明で、エージェントは強化学習の助けを借りて、ユーザ関連コストを最適化する(私たちの場合)逐次的なアクションを取る。
スレートの可能なアイテムの組み合わせは$\binom{K}{N}$であり、膨大な数のレンダリング値反復メソッドを抽出可能である。
我々は,Slate-MDPを1状態あたり$K$アイテム関連$Q$関数で分解できることを証明し,よりコンパクトで効率的な方法で問題を記述した。
そこで本研究では,1ステップあたりn$並列反復を行うモデルフリーのsarsaおよびq学習アルゴリズムを提案する。
我々は、このメソッドを、フリー・オブ・スレート(free-of-slates)と呼び、任意のユーザプロファイルに対して正確な最適値に非常に早く収束し、文献の代替よりも優れていることを示す。
関連論文リスト
- Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge [0.704590071265998]
オンラインQ-ラーニング手法のサンプル複雑性について,動的知識が利用可能であったり,効率的に学習できたりした場合に検討する。
我々は,$f$の完全知識の下で,$tildemathcalO(textPoly(H)sqrtSAT)$ regretを達成する楽観的なQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T19:53:58Z) - An Oblivious Stochastic Composite Optimization Algorithm for Eigenvalue
Optimization Problems [76.2042837251496]
相補的な合成条件に基づく2つの難解なミラー降下アルゴリズムを導入する。
注目すべきは、どちらのアルゴリズムも、目的関数のリプシッツ定数や滑らかさに関する事前の知識なしで機能する。
本稿では,大規模半確定プログラム上での手法の効率性とロバスト性を示す。
論文 参考訳(メタデータ) (2023-06-30T08:34:29Z) - Reaching Goals is Hard: Settling the Sample Complexity of the Stochastic
Shortest Path [106.37656068276902]
本稿では,最短経路(SSP)問題において,$epsilon$-optimal Policyを学習する際のサンプル複雑性について検討する。
学習者が生成モデルにアクセスできる場合、複雑性境界を導出する。
我々は、$S$状態、$A$アクション、最小コスト$c_min$、およびすべての状態に対する最適ポリシーの最大期待コストを持つ最悪のSSPインスタンスが存在することを示す。
論文 参考訳(メタデータ) (2022-10-10T18:34:32Z) - A Spectral Approach to Item Response Theory [6.5268245109828005]
本稿では,Raschモデルに対する新しい項目推定アルゴリズムを提案する。
我々のアルゴリズムの中核は、アイテム-イムグラフ上で定義されたマルコフ連鎖の定常分布の計算である。
合成および実生活データセットの実験により、我々のアルゴリズムは、文献でよく使われている手法とスケーラブルで正確で競合することを示した。
論文 参考訳(メタデータ) (2022-10-09T18:57:08Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Robust Methods for High-Dimensional Linear Learning [0.0]
統計的に頑健で計算効率の良い線形学習法を高次元バッチ設定で提案する。
バニラスパース、グループスパース、低ランク行列回復など、いくつかのアプリケーションでフレームワークをインスタンス化する。
バニラ $s$-sparsity の場合、重いテールと $eta$-corruption の下で $slog (d)/n$ レートに達することができます。
論文 参考訳(メタデータ) (2022-08-10T17:00:41Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Multinomial Logit Contextual Bandits: Provable Optimality and
Practicality [15.533842336139063]
パラメータが不明な多項式ロギット(MNL)選択モデルによってユーザ選択が与えられる順序選択選択問題を検討する。
本稿では,このMNLコンテクストバンディットに対する高信頼境界に基づくアルゴリズムを提案する。
本稿では,アルゴリズムの単純な変種が,幅広い重要なアプリケーションに対して最適な後悔を与えることを示す。
論文 参考訳(メタデータ) (2021-03-25T15:42:25Z) - Sparse Regression at Scale: Branch-and-Bound rooted in First-Order
Optimization [6.037383467521294]
我々は $ell_0$ 正規化回帰のための新しい正確な MIP フレームワークを提案する。
私たちのフレームワークは、$p sim 107$までスケールでき、少なくとも5,000$xのスピードアップを達成できます。
実装をツールキットL0BnBでオープンソースにしています。
論文 参考訳(メタデータ) (2020-04-13T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。