論文の概要: Online Recommendations for Agents with Discounted Adaptive Preferences
- arxiv url: http://arxiv.org/abs/2302.06014v1
- Date: Sun, 12 Feb 2023 22:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 17:10:45.020118
- Title: Online Recommendations for Agents with Discounted Adaptive Preferences
- Title(参考訳): 分散型適応選好エージェントに対するオンライン勧告
- Authors: Arpit Agarwal, William Brown
- Abstract要約: エージェントの嗜好が過去の選択履歴に一様に依存している場合のレコメンデーションのモデルを示す。
擬似増加傾向の選好モデルを導入し,一様雑音を伴う任意のアイテム分布と競合するアルゴリズムを提案する。
メモリレスケースに対するアルゴリズムのペアを結論付けます。
- 参考スコア(独自算出の注目度): 9.578114969867258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For domains in which a recommender provides repeated content suggestions,
agent preferences may evolve over time as a function of prior recommendations,
and algorithms must take this into account for long-run optimization. Recently,
Agarwal and Brown (2022) introduced a model for studying recommendations when
agents' preferences are adaptive, and gave a series of results for the case
when agent preferences depend {\it uniformly} on their history of past
selections. Here, the recommender shows a $k$-item menu (out of $n$) to the
agent at each round, who selects one of the $k$ items via their
history-dependent {\it preference model}, yielding a per-item adversarial
reward for the recommender.
We expand this setting to {\it non-uniform} preferences, and give a series of
results for {\it $\gamma$-discounted} histories. For this problem, the feasible
regret benchmarks can depend drastically on varying conditions. In the ``large
$\gamma$'' regime, we show that the previously considered benchmark, the ``EIRD
set'', is attainable for any {\it smooth} model, relaxing the ``local
learnability'' requirement from the uniform memory case. We introduce
``pseudo-increasing'' preference models, for which we give an algorithm which
can compete against any item distribution with small uniform noise (the
``smoothed simplex''). We show NP-hardness results for larger regret benchmarks
in each case. We give another algorithm for pseudo-increasing models (under a
restriction on the adversarial nature of the reward functions), which works for
any $\gamma$ and is faster when $\gamma$ is sufficiently small, and we show a
super-polynomial regret lower bound with respect to EIRD for general models in
the ``small $\gamma$'' regime. We conclude with a pair of algorithms for the
memoryless case.
- Abstract(参考訳): レコメンデータが繰り返しコンテンツの提案を提供するドメインでは、エージェントの好みは事前のレコメンデーションの関数として時間とともに進化し、アルゴリズムはこれを長期の最適化のために考慮しなければならない。
最近、agarwal and brown (2022) はエージェントの好みが適応している場合のレコメンデーションを研究するモデルを導入し、エージェントの好みが過去の選択の歴史に一様に依存する場合に一連の結果を与えた。
ここで、レコメンダは、各ラウンドのエージェントに$k$-itemメニュー($n$)を表示し、履歴に依存した“it preference model”を介して$k$アイテムの1つを選択し、レコメンダに対して1項目あたりの広告報酬を与える。
この設定を "it non-uniform} に拡張し、 {\gamma$-discounted} 履歴の一連の結果を与える。
この問題に対して、実行可能な後悔ベンチマークは、様々な条件に大きく依存することができる。
大きめの$\gamma$'' では、以前検討されたベンチマークである ``eird set''' が任意の {\it smooth} モデルに対して達成可能であり、一様記憶の場合から ``local learnability''' 要求を緩和する。
そこで我々は,「擬似的増加」の選好モデルを導入し,一様ノイズの少ない任意のアイテム分布と競合するアルゴリズムを提案する(「擬似的単純度」)。
各症例において, NP-hardness の結果を, より大きな後悔ベンチマークで示す。
我々は、任意の$\gamma$ に対して機能し、$\gamma$ が十分小さい場合にはより高速である擬似インクリエーションモデルに対する別のアルゴリズム(報酬関数の敵対的性質の制限の下で)を与え、``small$\gamma$'' 理論における一般モデルに対するeirdに対する超多項的後悔の下限を示す。
メモリレスケースに対するアルゴリズムのペアを結論付けます。
関連論文リスト
- Order-Optimal Instance-Dependent Bounds for Offline Reinforcement Learning with Preference Feedback [56.6950165117658]
我々は、暗黙の報酬が未知パラメータの線形関数である、好みフィードバックによるオフライン強化学習について検討する。
そこで我々は,UnderlineLocally Underline Underline Weights あるいは sc RL-LOW を用いたアルゴリズムを提案する。
我々は,sc RL-LOWの次数次最適性を示すため,単純な後悔マッチングの指数において,下限と上限が順序的に一致することが観察された。
論文 参考訳(メタデータ) (2024-06-18T02:03:12Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Cooperative Thresholded Lasso for Sparse Linear Bandit [6.52540785559241]
本稿では,マルチエージェント・スパース文脈線形帯域問題に対処する新しい手法を提案する。
疎線形帯域における行単位の分散データに対処する最初のアルゴリズムである。
後悔を最小限に抑えるために効率的な特徴抽出が重要となる高次元マルチエージェント問題に適用可能である。
論文 参考訳(メタデータ) (2023-05-30T16:05:44Z) - Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。
本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。
我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文 参考訳(メタデータ) (2023-03-15T17:59:27Z) - Sketchy: Memory-efficient Adaptive Regularization with Frequent
Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。
本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。
ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文 参考訳(メタデータ) (2023-02-07T21:50:06Z) - Parameter and Feature Selection in Stochastic Linear Bandits [38.909757749493934]
線形帯域(LB)における2つのモデル選択設定について検討する。
最初の設定では、LB問題の報酬パラメータは、$mathbb Rd$の重なり合うボールとして表される$M$モデルから任意に選択される。
2つ目の設定では、LB問題の期待される報酬は、少なくとも$M$特徴写像(モデル)の1つの線形スパンにある。
論文 参考訳(メタデータ) (2021-06-09T20:37:29Z) - High-Dimensional Sparse Linear Bandits [67.9378546011416]
データ・ポーア・システマティクスにおける疎線形包帯に対して、新しい$Omega(n2/3)$ dimension-free minimax regret lower boundを導出する。
また、関連する特徴に対する信号の大きさに関する追加の仮定の下で、次元のない$O(sqrtn)$ regret上界も証明する。
論文 参考訳(メタデータ) (2020-11-08T16:48:11Z) - Stochastic Linear Bandits with Protected Subspace [51.43660657268171]
線形目的関数を最適化するが、報酬は未知の部分空間にのみ得られる線形帯域問題の変種について検討する。
特に、各ラウンドでは、学習者は、目的または保護されたサブスペースを、アクションの選択とともにクエリするかどうかを選択する必要がある。
提案アルゴリズムはOFULの原理から導かれるもので,保護された空間を推定するためにクエリのいくつかを利用する。
論文 参考訳(メタデータ) (2020-11-02T14:59:39Z) - Efficient Learning in Non-Stationary Linear Markov Decision Processes [17.296084954104415]
非定常線形(低ランク)マルコフ決定過程(MDP)におけるエピソード強化学習の研究
OPT-WLSVI は最小二乗の重み付け値に基づく楽観的なモデルフリーのアルゴリズムであり、指数重み付けを用いて過去のデータをスムーズに忘れる。
我々のアルゴリズムは、各時点で最高のポリシーと競合するときに、$d$$$widetildemathcalO(d5/4H2 Delta1/4 K3/4)$で上限付けられた後悔を実現する。
論文 参考訳(メタデータ) (2020-10-24T11:02:45Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。