論文の概要: Weighted Tallying Bandits: Overcoming Intractability via Repeated
Exposure Optimality
- arxiv url: http://arxiv.org/abs/2305.02955v1
- Date: Thu, 4 May 2023 15:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:45:43.359169
- Title: Weighted Tallying Bandits: Overcoming Intractability via Repeated
Exposure Optimality
- Title(参考訳): 重み付きタイリングバンディット:繰り返し露光最適度による難易度克服
- Authors: Dhruv Malik, Conor Igoe, Yuanzhi Li, Aarti Singh
- Abstract要約: 推薦システムやクラウドソーシングアプリケーションでは、人間の好みや能力はアルゴリズムの最近の行動の関数であることが多い。
我々は、この設定を一般化するWeighted Tallying Bandit (WTB)を導入し、アクションの損失が、前回の$m$のタイムステップで腕が演奏された回数のエンフ和関数であることを要求して、この設定を一般化する。
我々は、$K$アクションと水平線$T$の問題に対して、逐次除去アルゴリズムの簡単な変更は、$O left( sqrtKT + m+)を持つことを示した。
- 参考スコア(独自算出の注目度): 46.445321251991096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recommender system or crowdsourcing applications of online learning, a
human's preferences or abilities are often a function of the algorithm's recent
actions. Motivated by this, a significant line of work has formalized settings
where an action's loss is a function of the number of times that action was
recently played in the prior $m$ timesteps, where $m$ corresponds to a bound on
human memory capacity. To more faithfully capture decay of human memory with
time, we introduce the Weighted Tallying Bandit (WTB), which generalizes this
setting by requiring that an action's loss is a function of a \emph{weighted}
summation of the number of times that arm was played in the last $m$ timesteps.
This WTB setting is intractable without further assumption. So we study it
under Repeated Exposure Optimality (REO), a condition motivated by the
literature on human physiology, which requires the existence of an action that
when repetitively played will eventually yield smaller loss than any other
sequence of actions. We study the minimization of the complete policy regret
(CPR), which is the strongest notion of regret, in WTB under REO. Since $m$ is
typically unknown, we assume we only have access to an upper bound $M$ on $m$.
We show that for problems with $K$ actions and horizon $T$, a simple
modification of the successive elimination algorithm has $O \left( \sqrt{KT} +
(m+M)K \right)$ CPR. Interestingly, upto an additive (in lieu of
mutliplicative) factor in $(m+M)K$, this recovers the classical guarantee for
the simpler stochastic multi-armed bandit with traditional regret. We
additionally show that in our setting, any algorithm will suffer additive CPR
of $\Omega \left( mK + M \right)$, demonstrating our result is nearly optimal.
Our algorithm is computationally efficient, and we experimentally demonstrate
its practicality and superiority over natural baselines.
- Abstract(参考訳): オンライン学習の推薦システムやクラウドソーシングアプリケーションでは、人間の好みや能力はアルゴリズムの最近の行動の関数であることが多い。
このモチベーションにより、アクションの損失が前回の$m$のタイムステップで最近行われたアクションの回数の関数であるような、大きな作業ラインがフォーマルに設定され、$m$は人間の記憶容量の制限に対応する。
時間とともに人間の記憶の崩壊をより忠実に捉えるために、重み付き集計バンディット(wtb)を導入する。これは、アクションの損失が、最後の$m$の時間ステップでarmがプレイされた回数の関数である \emph{weighted} の関数であることを要求して、この設定を一般化する。
このWTB設定は、さらなる仮定なしに難解である。
そこで、人間生理学の文献に動機づけられた状態であるreo(reo)を用いて実験を行い、反復的に演奏すると、最終的に他のどの一連の行動よりも損失が小さくなる作用が存在することを要求した。
本稿では,REO 下の WTB において,後悔の最も強い概念である完全政策後悔 (CPR) の最小化について検討する。
一般的に$m$は未知であるため、$m$上の上限$M$にしかアクセスできないと仮定する。
我々は、$K$アクションと水平線$T$の問題に対して、逐次除去アルゴリズムの簡単な修正が$O \left( \sqrt{KT} + (m+M)K \right)$CPRであることを示す。
興味深いことに、$(m+M)K$ の加法 (mutliplicative) 因子に代えて) を考えると、これは伝統的な後悔を伴うより単純な確率的多重武装バンディットに対する古典的な保証を回復する。
さらに、我々の設定では、任意のアルゴリズムが$\Omega \left(mK + M \right)$の加法的CPRを被り、結果がほぼ最適であることを示す。
本アルゴリズムは計算効率が高く,自然ベースラインよりも実用性と優越性を実験的に実証する。
関連論文リスト
- Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR [58.40575099910538]
本研究は,リスク許容度が$tau$のCVaR(Conditional Value at Risk)の目的に着目し,リスクに敏感な強化学習(RL)について検討する。
ミニマックスCVaRの後悔率は$Omega(sqrttau-1AK)$で、$A$はアクションの数、$K$はエピソード数である。
我々は,このアルゴリズムが連続性仮定の下で$widetilde O(tau-1sqrtSAK)$の最適後悔を達成し,一般に近似することを示す。
論文 参考訳(メタデータ) (2023-02-07T02:22:31Z) - Complete Policy Regret Bounds for Tallying Bandits [51.039677652803675]
政策後悔は、適応的な敵に対してオンライン学習アルゴリズムのパフォーマンスを測定するという、よく確立された概念である。
我々は,不完全な政策後悔を効果的に最小化できる敵の制限について検討する。
我々は、$tildemathcalO(mKsqrtT)$の完全なポリシーを後悔するアルゴリズムを提供し、$tildemathcalO$表記は対数要素だけを隠す。
論文 参考訳(メタデータ) (2022-04-24T03:10:27Z) - Improved Regret Bound and Experience Replay in Regularized Policy
Iteration [22.621710838468097]
無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
論文 参考訳(メタデータ) (2021-02-25T00:55:07Z) - Minimax Regret for Stochastic Shortest Path with Adversarial Costs and
Known Transition [37.6975819766632]
我々は、敵対コストと既知の移行で最短経路問題を研究します。
ミニマックスの後悔は,全情報設定と盗聴フィードバック設定に対して$widetildeO(sqrtDTstar K)$および$widetildeO(sqrtDTstar SA K)$であることを示す。
論文 参考訳(メタデータ) (2020-12-07T20:55:28Z) - Lenient Regret for Multi-Armed Bandits [72.56064196252498]
エージェントが順番に行動を選択し、その行動に対する報酬を観察するマルチアーマッド・バンディット(MAB)問題を考察する。
アルゴリズムの大多数は、後悔、すなわち最高の行動の報酬とエージェントの行動の累積的な差を最小化しようとするが、この基準は望ましくない結果をもたらすかもしれない。
我々は、いくつかの$epsilon$よりも小さな最適性ギャップを無視した、より寛大で寛大で後悔すべき基準を提案する。
論文 参考訳(メタデータ) (2020-08-10T08:30:52Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Simultaneously Learning Stochastic and Adversarial Episodic MDPs with
Known Transition [38.28925339231888]
我々は,世界最良保証付きの最初のアルゴリズムを開発した。
損失が逆ならば、$mathcalO(log T)$ regretを達成します。
より一般的には、中間設定で $tildemathcalO(sqrtC)$ regret を達成する。
論文 参考訳(メタデータ) (2020-06-10T01:59:34Z) - Learning Near Optimal Policies with Low Inherent Bellman Error [115.16037976819331]
エピソード強化学習における近似線形作用値関数を用いた探索問題について検討する。
我々は,検討した設定に対して最適な統計率を達成するアルゴリズムを用いて,Emphbatch仮定のみを用いて探索を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-02-29T02:02:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。