論文の概要: Structure Adaptive Algorithms for Stochastic Bandits
- arxiv url: http://arxiv.org/abs/2007.00969v1
- Date: Thu, 2 Jul 2020 08:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 13:15:56.089104
- Title: Structure Adaptive Algorithms for Stochastic Bandits
- Title(参考訳): 確率帯域に対する構造適応アルゴリズム
- Authors: R\'emy Degenne, Han Shao, Wouter M. Koolen
- Abstract要約: 構造化多武装バンディット問題のクラスにおける報酬最大化について検討する。
平均的な武器の報酬は、与えられた構造的制約を満たす。
我々は、反復的なサドルポイントソルバを用いて、インスタンス依存の低バウンドからのアルゴリズムを開発する。
- 参考スコア(独自算出の注目度): 22.871155520200773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reward maximisation in a wide class of structured stochastic
multi-armed bandit problems, where the mean rewards of arms satisfy some given
structural constraints, e.g. linear, unimodal, sparse, etc. Our aim is to
develop methods that are flexible (in that they easily adapt to different
structures), powerful (in that they perform well empirically and/or provably
match instance-dependent lower bounds) and efficient in that the per-round
computational burden is small.
We develop asymptotically optimal algorithms from instance-dependent
lower-bounds using iterative saddle-point solvers. Our approach generalises
recent iterative methods for pure exploration to reward maximisation, where a
major challenge arises from the estimation of the sub-optimality gaps and their
reciprocals. Still we manage to achieve all the above desiderata. Notably, our
technique avoids the computational cost of the full-blown saddle point oracle
employed by previous work, while at the same time enabling finite-time regret
bounds.
Our experiments reveal that our method successfully leverages the structural
assumptions, while its regret is at worst comparable to that of vanilla UCB.
- Abstract(参考訳): 本研究では,線形,ユニモーダル,スパースなど,腕の平均報酬が与えられた構造的制約を満たした幅広い階層構造的確率的多腕バンディット問題において,報酬の最大化について検討する。
我々の目的は、柔軟で(異なる構造に容易に適応できる)、強力で(経験的かつ/または証明的にインスタンス依存の低い境界によく適合する)、かつ、円周計算の負担が小さい方法を開発することである。
反復的鞍点解法を用いて,インスタンス依存下限から漸近的最適アルゴリズムを開発する。
提案手法は,準最適性ギャップとその相互関係の推定から生じる大きな課題である,純粋探索のための最近の反復的手法を一般化するものである。
それでも上述のデシダラタは達成できた。
特に,本手法は,それまでの作業で用いたフルブルーのサドル点オラクルの計算コストを回避すると同時に,有限時間後悔境界を許容する。
実験の結果,本手法は構造的仮定の活用に成功し,その後悔はバニラ UCB に匹敵することがわかった。
関連論文リスト
- Beyond Primal-Dual Methods in Bandits with Stochastic and Adversarial Constraints [29.514323697659613]
我々は,学習者が任意の長期制約を満たすことなく報酬を最大化することを目的とした,knapsacks問題によるバンディットの一般化に対処する。
私たちのゴールは、双方の制約の下で機能するベスト・オブ・ザ・ワールドのアルゴリズムを設計することです。
論文 参考訳(メタデータ) (2024-05-25T08:09:36Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - PopArt: Efficient Sparse Regression and Experimental Design for Optimal
Sparse Linear Bandits [29.097522376094624]
そこで我々はPopArtと呼ばれる単純で効率的なスパース線形推定法を提案する。
我々は, 粗い線形バンディットアルゴリズムを導出し, 美術品の状態に対する後悔の上界の改善を享受する。
論文 参考訳(メタデータ) (2022-10-25T19:13:20Z) - Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。
これらの問題に対する新規で簡単な最適化法を開発した。
結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-09-23T17:38:24Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z) - An Asymptotically Optimal Primal-Dual Incremental Algorithm for
Contextual Linear Bandits [129.1029690825929]
複数の次元に沿った最先端技術を改善する新しいアルゴリズムを提案する。
非文脈線形帯域の特別な場合において、学習地平線に対して最小限の最適性を確立する。
論文 参考訳(メタデータ) (2020-10-23T09:12:47Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Adaptive Discretization for Model-Based Reinforcement Learning [10.21634042036049]
本稿では,適応離散化手法を導入し,効率的なモデルに基づくエピソード強化学習アルゴリズムを設計する。
我々のアルゴリズムは、空間の適応的な離散化を維持するために拡張された楽観的なワンステップ値反復に基づいている。
論文 参考訳(メタデータ) (2020-07-01T19:36:46Z) - An Empirical Process Approach to the Union Bound: Practical Algorithms
for Combinatorial and Linear Bandits [34.06611065493047]
本稿では、信頼度と予算設定の固定化において、純探索線形帯域問題に対する近似アルゴリズムを提案する。
サンプルの複雑性がインスタンスの幾何でスケールし、アームの数に縛られた明示的な結合を避けるアルゴリズムを提供する。
また,固定予算設定における線形帯域幅に対する最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-21T00:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。