論文の概要: Asymptotic Randomised Control with applications to bandits
- arxiv url: http://arxiv.org/abs/2010.07252v2
- Date: Sat, 3 Sep 2022 21:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 14:14:21.345746
- Title: Asymptotic Randomised Control with applications to bandits
- Title(参考訳): 漸近ランダム化制御とバンディットへの応用
- Authors: Samuel N. Cohen and Tanut Treetanthiploet
- Abstract要約: 相関要素を持つ一般的なマルチアームバンディット問題を緩和制御問題として考察する。
エントロピー正規化を導入することにより、値関数への滑らかな近似が得られる。
これにより、最適決定過程の新たな半指数近似が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a general multi-armed bandit problem with correlated (and simple
contextual and restless) elements, as a relaxed control problem. By introducing
an entropy regularisation, we obtain a smooth asymptotic approximation to the
value function. This yields a novel semi-index approximation of the optimal
decision process. This semi-index can be interpreted as explicitly balancing an
exploration-exploitation trade-off as in the optimistic (UCB) principle where
the learning premium explicitly describes asymmetry of information available in
the environment and non-linearity in the reward function. Performance of the
resulting Asymptotic Randomised Control (ARC) algorithm compares favourably
well with other approaches to correlated multi-armed bandits.
- Abstract(参考訳): 相関した(かつ単純な文脈的およびレストレスな)要素を持つ一般的なマルチアームバンディット問題を緩和制御問題と考える。
エントロピー正規化を導入することで、値関数に対する滑らかな漸近近似が得られる。
これにより、最適な決定プロセスの新しい半インデックス近似が得られる。
このセミインデックスは、学習プレミアムが環境で利用可能な情報の非対称性と報酬関数の非線形性を明示的に記述する楽観的(UCB)原理のように、探索-探索トレードオフを明示的にバランスさせるものとして解釈することができる。
Asymptotic Randomized Control (ARC) アルゴリズムの性能は、相関した多腕包帯に対する他のアプローチと良好に比較できる。
関連論文リスト
- Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - Distributed Stochastic Nonconvex Optimization and Learning based on
Successive Convex Approximation [26.11677569331688]
本稿では,ネットワーク内のエージェントの総和の分散アルゴリズム最小化のための新しいフレームワークを提案する。
提案手法は分散ニューラルネットワークに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-04-30T15:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。