論文の概要: Rebounding Bandits for Modeling Satiation Effects
- arxiv url: http://arxiv.org/abs/2011.06741v3
- Date: Wed, 27 Oct 2021 13:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:35:40.682740
- Title: Rebounding Bandits for Modeling Satiation Effects
- Title(参考訳): 風刺効果のモデル化のためのリバウンドバンディット
- Authors: Liu Leqi, Fatma Kilinc-Karzan, Zachary C. Lipton, Alan L. Montgomery
- Abstract要約: リバウンダリング・バンディット(rebounding bandit)は、時間不変線形力学系として飽和力学をモデル化するマルチアーム・バンディット・セットアップである。
我々は、腕が同一のダイナミクスを示す場合に、欲求政策が最適であることを示す計画問題を特徴づける。
- 参考スコア(独自算出の注目度): 22.92512152419544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Psychological research shows that enjoyment of many goods is subject to
satiation, with short-term satisfaction declining after repeated exposures to
the same item. Nevertheless, proposed algorithms for powering recommender
systems seldom model these dynamics, instead proceeding as though user
preferences were fixed in time. In this work, we introduce rebounding bandits,
a multi-armed bandit setup, where satiation dynamics are modeled as
time-invariant linear dynamical systems. Expected rewards for each arm decline
monotonically with consecutive exposures to it and rebound towards the initial
reward whenever that arm is not pulled. Unlike classical bandit settings,
methods for tackling rebounding bandits must plan ahead and model-based methods
rely on estimating the parameters of the satiation dynamics. We characterize
the planning problem, showing that the greedy policy is optimal when the arms
exhibit identical deterministic dynamics. To address stochastic satiation
dynamics with unknown parameters, we propose Explore-Estimate-Plan (EEP), an
algorithm that pulls arms methodically, estimates the system dynamics, and then
plans accordingly.
- Abstract(参考訳): 心理的研究は、多くの商品の楽しみが風刺され、同じアイテムに繰り返し露出した後、短期的な満足度が低下することを示している。
それにもかかわらず、レコメンダシステムを動かすアルゴリズムはこれらのダイナミクスをほとんどモデル化せず、ユーザーの好みが時間内に固定されたかのように進行する。
本研究では,風刺力学を時間不変線形力学系としてモデル化した多腕バンディットのリバウンディングバンディットを提案する。
予想される各腕の報酬は、連続的な露出で単調に減少し、腕が引っ張られなければ最初の報酬に戻す。
古典的なバンディット設定と異なり、リバウンドするバンディットに取り組む方法は前もって計画しなければならず、モデルベースの手法は風刺力学のパラメータの推定に依存している。
計画問題の特徴として, 腕が同一の決定論的ダイナミクスを示すとき, 欲望政策が最適であることを示す。
確率的充足力学を未知のパラメータで解くために,腕を機械的に引いてシステムダイナミクスを推定し,それに従って計画を行うアルゴリズムであるExplore-Estimate-Plan(EEP)を提案する。
関連論文リスト
- Dynamic Obstacle Avoidance through Uncertainty-Based Adaptive Planning with Diffusion [40.76697924496143]
本稿では,行動予測の不確実性に基づいた適応的生成計画手法を提案する。
本手法は, 衝突回避性能を維持しつつ, 頻繁で計算コストが高く, 冗長な再計画の必要性を最小限に抑える。
論文 参考訳(メタデータ) (2024-09-25T14:03:58Z) - Tractable Joint Prediction and Planning over Discrete Behavior Modes for
Urban Driving [15.671811785579118]
自己回帰閉ループモデルのパラメータ化は,再学習を伴わずに可能であることを示す。
離散潜在モード上での完全反応性閉ループ計画を提案する。
当社のアプローチは、CARLAにおける従来の最先端技術よりも、高密度なトラフィックシナリオに挑戦する上で優れています。
論文 参考訳(メタデータ) (2024-03-12T01:00:52Z) - Structured Dynamic Pricing: Optimal Regret in a Global Shrinkage Model [50.06663781566795]
消費者の嗜好と価格感が時間とともに変化する動的モデルを考える。
我々は,モデルパラメータの順序を事前に把握している透視者と比較して,収益損失が予想される,後悔による動的価格政策の性能を計測する。
提案した政策の最適性を示すだけでなく,政策立案のためには,利用可能な構造情報を組み込むことが不可欠であることを示す。
論文 参考訳(メタデータ) (2023-03-28T00:23:23Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Non-Stationary Bandits with Auto-Regressive Temporal Dependency [14.093856726745662]
本稿では,自己回帰(AR)報酬構造を通じて実世界の力学の時間構造をキャプチャする,新しい非定常MABフレームワークを提案する。
i) 時間的依存を利用して探索と利用を動的にバランスさせるのに適した変更機構と, (ii) 時代遅れの情報を捨てるように設計された再起動機構の2つの主要なメカニズムを統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-28T20:02:21Z) - Maximum entropy exploration in contextual bandits with neural networks
and energy based models [63.872634680339644]
モデルには2つのクラスがあり、1つはニューラルネットワークを報酬推定器とし、もう1つはエネルギーベースモデルを示す。
両手法は、エネルギーベースモデルが最も優れた性能を持つ、よく知られた標準アルゴリズムより優れていることを示す。
これは、静的および動的設定でよく機能する新しいテクニックを提供し、特に連続的なアクション空間を持つ非線形シナリオに適している。
論文 参考訳(メタデータ) (2022-10-12T15:09:45Z) - Understanding the stochastic dynamics of sequential decision-making
processes: A path-integral analysis of multi-armed bandits [7.05949591248206]
マルチアームバンディットモデル(MAB)は、不確実な環境で意思決定を研究する最も一般的なモデルの一つである。
本稿では,MABモデルの解析に統計物理学の手法を用いる。
論文 参考訳(メタデータ) (2022-08-11T09:32:03Z) - Stochastic Multi-armed Bandits with Non-stationary Rewards Generated by
a Linear Dynamical System [2.0460959603642004]
線形力学系から報酬をサンプリングするマルチアームバンディットの変種を提案する。
提案手法は,学習したモデルに基づいて最適な動作を選択しながら,動的システムのモデルを学ぶことである。
この戦略は、高頻度取引戦略として量的金融に適用され、この戦略は、一定期間内にリターンを最大化することを目的としている。
論文 参考訳(メタデータ) (2022-04-06T19:22:33Z) - Time varying regression with hidden linear dynamics [74.9914602730208]
線形力学系に従って未知のパラメータが進化することを前提とした時間変化線形回帰モデルを再検討する。
反対に、基礎となる力学が安定である場合、このモデルのパラメータは2つの通常の最小二乗推定と組み合わせることで、データから推定できることが示される。
論文 参考訳(メタデータ) (2021-12-29T23:37:06Z) - A Regret Minimization Approach to Iterative Learning Control [61.37088759497583]
我々は、標準的な不確実性の仮定を最悪の場合の後悔に置き換える新しいパフォーマンスメトリック、計画後悔を提案します。
提案アルゴリズムがいくつかのベンチマークで既存の手法よりも優れているという理論的および実証的な証拠を提供します。
論文 参考訳(メタデータ) (2021-02-26T13:48:49Z) - Stochastically forced ensemble dynamic mode decomposition for
forecasting and analysis of near-periodic systems [65.44033635330604]
本稿では,観測力学を強制線形系としてモデル化した新しい負荷予測手法を提案する。
固有線型力学の利用は、解釈可能性やパーシモニーの観点から、多くの望ましい性質を提供することを示す。
電力グリッドからの負荷データを用いたテストケースの結果が提示される。
論文 参考訳(メタデータ) (2020-10-08T20:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。