論文の概要: Bounded (O(1)) Regret Recommendation Learning via Synthetic Controls
Oracle
- arxiv url: http://arxiv.org/abs/2301.12571v2
- Date: Thu, 29 Jun 2023 22:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 15:31:08.497661
- Title: Bounded (O(1)) Regret Recommendation Learning via Synthetic Controls
Oracle
- Title(参考訳): 合成制御によるリコメンデーション学習(o(1)) oracle
- Authors: Enoch Hyunwook Kang, P. R. Kumar
- Abstract要約: 一定嗜好を持つユーザが繰り返し到着するオンライン探索システムでは、後悔の限度が達成される。
この結果は、商品の人気が短命であることが多いレコメンデーションシステムにとって、興味のあるものかもしれない。
本研究は,これらの問題に対処しつつ,いまだに限定された後悔を達成しつつ,理論的研究を行うものである。
- 参考スコア(独自算出の注目度): 6.935657546323529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In online exploration systems where users with fixed preferences repeatedly
arrive, it has recently been shown that O(1), i.e., bounded regret, can be
achieved when the system is modeled as a linear contextual bandit. This result
may be of interest for recommender systems, where the popularity of their items
is often short-lived, as the exploration itself may be completed quickly before
potential long-run non-stationarities come into play. However, in practice,
exact knowledge of the linear model is difficult to justify. Furthermore,
potential existence of unobservable covariates, uneven user arrival rates,
interpretation of the necessary rank condition, and users opting out of private
data tracking all need to be addressed for practical recommender system
applications. In this work, we conduct a theoretical study to address all these
issues while still achieving bounded regret. Aside from proof techniques, the
key differentiating assumption we make here is the presence of effective
Synthetic Control Methods (SCM), which are shown to be a practical relaxation
of the exact linear model knowledge assumption. We verify our theoretical
bounded regret result using a minimal simulation experiment.
- Abstract(参考訳): 近年,オンライン探索システムでは,O(1),すなわち有界後悔(bounded regret)が線形文脈帯域としてモデル化された場合に達成できることが示されている。
この結果は、アイテムの人気が短命であるレコメンダシステムにとって興味をそそられるかもしれない。
しかし、実際には、線形モデルの正確な知識は正当化が難しい。
さらに、観測不能な共変量、不均一なユーザの到着率、必要なランク条件の解釈、およびプライベートデータトラッキングからオプトアウトするユーザは、実用的なレコメンデーションシステムアプリケーションのために対処する必要がある。
本研究は,これらの問題すべてに対処するための理論的研究を行ない,なおかつ有界的な後悔を抱く。
証明手法の他に、我々がここで行う重要な差別化仮定は、正確な線形モデル知識仮定の実践的緩和であることを示す効果的な合成制御法(SCM)の存在である。
最小限のシミュレーション実験を用いて理論的有界後悔結果を検証する。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States [52.56827348431552]
勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。
本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。
論文 参考訳(メタデータ) (2024-02-12T18:41:31Z) - Can Learning Deteriorate Control? Analyzing Computational Delays in
Gaussian Process-Based Event-Triggered Online Learning [7.697964930378468]
計算遅延を考慮したGPベースのオンライン学習のための新しいイベントトリガを提案する。
十分に少ない計算時間で、オフラインで訓練されたGPモデルよりも有利であることを示す。
論文 参考訳(メタデータ) (2023-05-14T14:37:33Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - Context Uncertainty in Contextual Bandits with Applications to
Recommender Systems [16.597836265345634]
本稿では,リカレントサーベイネットワーク(REN)と呼ばれる新しいタイプのリカレントニューラルネットワークを提案する。
我々の理論的分析は,RENが学習表現に不確実性がある場合でも,速度-線形準最適後悔を保てることを示す。
我々の実証研究は、RENが合成および実世界のレコメンデーションデータセットに満足な長期報酬を得られることを示した。
論文 参考訳(メタデータ) (2022-02-01T23:23:50Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z) - Technical Report: Adaptive Control for Linearizable Systems Using
On-Policy Reinforcement Learning [41.24484153212002]
本稿では,未知システムに対するフィードバック線形化に基づくトラッキング制御系を適応的に学習するフレームワークを提案する。
学習した逆モデルがすべての時点において可逆である必要はない。
二重振り子の模擬例は、提案された理論の有用性を示している。
論文 参考訳(メタデータ) (2020-04-06T15:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。