論文の概要: Recommender system as an exploration coordinator: a bounded O(1) regret
algorithm for large platforms
- arxiv url: http://arxiv.org/abs/2301.12571v1
- Date: Sun, 29 Jan 2023 22:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 16:22:05.432171
- Title: Recommender system as an exploration coordinator: a bounded O(1) regret
algorithm for large platforms
- Title(参考訳): 探索コーディネータとしてのレコメンデータシステム : 大規模プラットフォームのための有界o(1)後悔アルゴリズム
- Authors: Hyunwook Kang, P. R. Kumar
- Abstract要約: 本稿では,提案するリコメンデータシステムを,偽情報更新を行う帯域探索コーディネータとして解釈する。
特に,ユーザ探索の協調を保証し,反実的 UCB という新しいアルゴリズムを導入する。
以上の結果から,情報共有はエージェントに対するサブゲーム完全ナッシュ平衡であり,各エージェントが限定的後悔を達成していることが明らかとなった。
- 参考スコア(独自算出の注目度): 6.935657546323529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On typical modern platforms, users are only able to try a small fraction of
the available items. This makes it difficult to model the exploration behavior
of platform users as typical online learners who explore all the items. Towards
addressing this issue, we propose to interpret a recommender system as a bandit
exploration coordinator that provides counterfactual information updates. In
particular, we introduce a novel algorithm called Counterfactual UCB (CFUCB)
which is guarantees user exploration coordination with bounded regret under the
presence of linear representations. Our results show that sharing information
is a Subgame Perfect Nash Equilibrium for agents in terms of regret, leading to
each agent achieving bounded regret. This approach has potential applications
in personalized recommender systems and adaptive experimentation.
- Abstract(参考訳): 現代の一般的なプラットフォームでは、ユーザーは利用可能なアイテムのごく一部しか試すことができない。
これにより、全ての項目を探索する典型的なオンライン学習者として、プラットフォームユーザの探索行動のモデル化が困難になる。
この問題に対処するため,我々は,偽情報更新を提供するバンディット探索コーディネータとしてレコメンデータシステムを解釈する。
特に,リニア表現の存在下でのユーザ探索協調と有界後悔の両立を保証する新しいアルゴリズムであるCFUCB(Counterfactual UCB)を導入する。
以上の結果から,情報共有はエージェントに対するサブゲーム完全ナッシュ平衡であり,各エージェントが限定的後悔を達成できることを示す。
このアプローチは、パーソナライズされたレコメンデーションシステムと適応実験に潜在的応用をもたらす。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - Implicit Bias of Policy Gradient in Linear Quadratic Control: Extrapolation to Unseen Initial States [52.56827348431552]
勾配降下はしばしば暗黙のバイアスを示し、目に見えないデータに優れたパフォーマンスをもたらす。
本稿では,初期状態に対する外挿の観点から,政策勾配の暗黙バイアスを理論的に検討する。
論文 参考訳(メタデータ) (2024-02-12T18:41:31Z) - Can Learning Deteriorate Control? Analyzing Computational Delays in
Gaussian Process-Based Event-Triggered Online Learning [7.697964930378468]
計算遅延を考慮したGPベースのオンライン学習のための新しいイベントトリガを提案する。
十分に少ない計算時間で、オフラインで訓練されたGPモデルよりも有利であることを示す。
論文 参考訳(メタデータ) (2023-05-14T14:37:33Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - Context Uncertainty in Contextual Bandits with Applications to
Recommender Systems [16.597836265345634]
本稿では,リカレントサーベイネットワーク(REN)と呼ばれる新しいタイプのリカレントニューラルネットワークを提案する。
我々の理論的分析は,RENが学習表現に不確実性がある場合でも,速度-線形準最適後悔を保てることを示す。
我々の実証研究は、RENが合成および実世界のレコメンデーションデータセットに満足な長期報酬を得られることを示した。
論文 参考訳(メタデータ) (2022-02-01T23:23:50Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z) - Technical Report: Adaptive Control for Linearizable Systems Using
On-Policy Reinforcement Learning [41.24484153212002]
本稿では,未知システムに対するフィードバック線形化に基づくトラッキング制御系を適応的に学習するフレームワークを提案する。
学習した逆モデルがすべての時点において可逆である必要はない。
二重振り子の模擬例は、提案された理論の有用性を示している。
論文 参考訳(メタデータ) (2020-04-06T15:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。