論文の概要: A Linear Bandit for Seasonal Environments
- arxiv url: http://arxiv.org/abs/2004.13576v1
- Date: Tue, 28 Apr 2020 15:03:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:25:03.371129
- Title: A Linear Bandit for Seasonal Environments
- Title(参考訳): 季節環境のための線形帯域
- Authors: Giuseppe Di Benedetto, Vito Bellini, Giovanni Zappella
- Abstract要約: 本稿では,報酬関数の急激な変化を検出し,適応する文脈的帯域幅アルゴリズムを提案する。
提案手法は,非定常環境における最先端のアルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 2.3388338598125196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit algorithms are extremely popular and widely used in
recommendation systems to provide online personalised recommendations. A
recurrent assumption is the stationarity of the reward function, which is
rather unrealistic in most of the real-world applications. In the music
recommendation scenario for instance, people's music taste can abruptly change
during certain events, such as Halloween or Christmas, and revert to the
previous music taste soon after.
We would therefore need an algorithm which can promptly react to these
changes. Moreover, we would like to leverage already observed rewards collected
during different stationary periods which can potentially reoccur, without the
need of restarting the learning process from scratch. A growing literature has
addressed the problem of reward's non-stationarity, providing algorithms that
could quickly adapt to the changing environment. However, up to our knowledge,
there is no algorithm which deals with seasonal changes of the reward function.
Here we present a contextual bandit algorithm which detects and adapts to
abrupt changes of the reward function and leverages previous estimations
whenever the environment falls back to a previously observed state. We show
that the proposed method can outperform state-of-the-art algorithms for
non-stationary environments. We ran our experiment on both synthetic and real
datasets.
- Abstract(参考訳): コンテキストバンディットアルゴリズムは非常に人気があり、オンラインのパーソナライズドレコメンデーションを提供するためにレコメンデーションシステムで広く使われている。
再帰的な仮定は報酬関数の定常性であり、現実世界のほとんどの応用では非現実的である。
例えば、音楽レコメンデーションのシナリオでは、ハロウィーンやクリスマスなどの特定のイベントで人々の音楽の味が突然変化し、すぐに以前の音楽の味に戻すことができる。
そのため、これらの変更に迅速に対応できるアルゴリズムが必要です。
また,学習過程をスクラッチから再起動することなく再起する可能性のある,異なる定常期間に収集した報奨を有効活用したい。
増大する文献は報酬の非定常性の問題に対処し、変化する環境に迅速に適応できるアルゴリズムを提供している。
しかし、我々の知る限り、報酬関数の季節変化を扱うアルゴリズムは存在しない。
本稿では,報奨関数の突然の変化を検出し,適応するコンテキストバンディットアルゴリズムを提案する。
提案手法は,非定常環境において最先端のアルゴリズムに勝ることを示す。
合成データと実データの両方で実験を行いました。
関連論文リスト
- Posterior Sampling via Autoregressive Generation [11.713451719120707]
本稿では,大規模な履歴データから帯域幅アルゴリズムを学習するための新しいフレームワークを提案する。
我々は、過去のデータを用いて自己回帰モデルを事前訓練し、繰り返しのフィードバック/リワードのシーケンスを予測する。
意思決定時には、各アクションに対して想像された報酬の列を自動で(インプット)サンプリングし、最大平均的な報酬でアクションを選択する。
論文 参考訳(メタデータ) (2024-05-29T19:24:44Z) - Variance-Dependent Regret Bounds for Non-stationary Linear Bandits [52.872628573907434]
報酬分布の分散と$B_K$の分散を利用するアルゴリズムを提案する。
Restarted Weighted$textOFUL+$とRestarted$textSAVE+$の2つの新しいアルゴリズムを紹介します。
特に、V_K$が$K$よりはるかに小さい場合、我々のアルゴリズムは、異なる設定下での非定常線形バンドレットの最先端結果よりも優れている。
論文 参考訳(メタデータ) (2024-03-15T23:36:55Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Contextual Bandits with Smooth Regret: Efficient Learning in Continuous
Action Spaces [14.366265951396587]
我々は、大規模または連続的なアクション空間に対する効率的な汎用的コンテキスト帯域幅アルゴリズムを設計する。
本稿では,従来提案されていた代替案に支配的な文脈的包帯に対して,スムーズな後悔の念を抱く概念を提案する。
我々のアルゴリズムは、標準的な後悔の下で以前のminimax/Paretoの最適保証を回復するために使用することができる。
論文 参考訳(メタデータ) (2022-07-12T21:27:09Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Break your Bandit Routine with LSD Rewards: a Last Switch Dependent
Analysis of Satiation and Seasonality [6.146046338698175]
そこで本研究では,腕が最後に動作を切り替えて以降の時間経過によって,腕の期待される報酬が完全に決定される,新たな非定常バンディット問題を導入する。
我々のモデルは、遅延依存報酬の概念を一般化し、報酬関数に関するほとんどの仮定を緩和する。
我々はアルゴリズムを証明し、最適な非定常ポリシーに関してその後悔を証明した。
論文 参考訳(メタデータ) (2021-10-22T14:53:13Z) - Adapting to misspecification in contextual bandits with offline
regression oracles [7.312170216336086]
本稿では,適切な安全ポリシーに回帰することで,誤特定誤りに適応する文脈的帯域幅アルゴリズムのファミリーを提案する。
我々のアルゴリズムは、平均的な不特定化レベルの測定で優雅に劣化する後悔の保証を保証するために、オフラインの回帰オラクルのみを必要とします。
論文 参考訳(メタデータ) (2021-02-26T00:15:04Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。