論文の概要: Bounded Regret for Finitely Parameterized Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2003.01328v5
- Date: Sat, 7 Nov 2020 20:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:00:17.663933
- Title: Bounded Regret for Finitely Parameterized Multi-Armed Bandits
- Title(参考訳): 有限パラメータ化多腕バンディットに対する有界な後悔
- Authors: Kishan Panaganti and Dileep Kalathil
- Abstract要約: 実装が簡単かつ容易なアルゴリズムを提案する。
FP-UCBアルゴリズムは対数的後悔を実現する。
また、FP-UCBアルゴリズムの性能を広範囲な数値シミュレーションにより検証する。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of finitely parameterized multi-armed bandits where
the model of the underlying stochastic environment can be characterized based
on a common unknown parameter. The true parameter is unknown to the learning
agent. However, the set of possible parameters, which is finite, is known a
priori. We propose an algorithm that is simple and easy to implement, which we
call Finitely Parameterized Upper Confidence Bound (FP-UCB) algorithm, which
uses the information about the underlying parameter set for faster learning. In
particular, we show that the FP-UCB algorithm achieves a bounded regret under
some structural condition on the underlying parameter set. We also show that,
if the underlying parameter set does not satisfy the necessary structural
condition, the FP-UCB algorithm achieves a logarithmic regret, but with a
smaller preceding constant compared to the standard UCB algorithm. We also
validate the superior performance of the FP-UCB algorithm through extensive
numerical simulations.
- Abstract(参考訳): 確率環境のモデルが未知のパラメータに基づいて特徴づけられるような有限パラメータ化マルチアームバンドの問題を考える。
学習者にとって真のパラメータは未知である。
しかし、可能なパラメータの集合は有限であり、事前性が知られている。
本稿では,有限パラメータ化uper confidence bound (fp-ucb) アルゴリズムとよばれる,単純で実装が容易なアルゴリズムを提案する。
特に、FP-UCBアルゴリズムは、下層のパラメータ集合上の何らかの構造条件下で、有界後悔を実現する。
また,FP-UCBアルゴリズムは,基本パラメータ集合が必要な構造条件を満たさない場合,対数的後悔を実現するが,標準 UCB アルゴリズムと比較して先行定数は小さくなることを示す。
また、FP-UCBアルゴリズムの性能を広範囲な数値シミュレーションにより検証する。
関連論文リスト
- Sub-linear Regret in Adaptive Model Predictive Control [56.705978425244496]
本稿では,STT-MPC (Self-Tuning tube-based Model Predictive Control) について述べる。
システム力学を最初に認識したアルゴリズムと比較して,アルゴリズムの後悔を解析する。
論文 参考訳(メタデータ) (2023-10-07T15:07:10Z) - Surrogate-based Autotuning for Randomized Sketching Algorithms in
Regression Problems [44.54726768134471]
本稿では,RandNLAアルゴリズムにおけるパラメータ選択の基本的な問題に対して,サロゲートに基づくオートチューニング手法を適用する方法について述べる。
提案手法は, 提案手法により, ランダム探索よりもチューニングコストがはるかに低く, ほぼ最適性能が得られることを示す。
論文 参考訳(メタデータ) (2023-08-30T02:50:54Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - Fast Perturbative Algorithm Configurators [0.0]
ParamRLS と ParamILS のパラメータ問題を最適化するために,期待時間に線形な下界を証明した。
本研究では, 摂動アルゴリズムのための高調波突然変異演算子を, 対数時間, 対数時間, ほぼ対数時間で提案する。
実験的な分析により、いくつかの構成シナリオにおいて、実際にアプローチの優位性を確認することができる。
論文 参考訳(メタデータ) (2020-07-07T10:48:32Z) - Refined bounds for algorithm configuration: The knife-edge of dual class
approximability [94.83809668933021]
トレーニングセットが、トレーニングセット上でのパラメータの平均メトリックのパフォーマンスが、予想される将来的なパフォーマンスに最も近いことを保証するために、どの程度の規模が必要かを調査する。
この近似が L-無限ノルムの下で成り立つなら、強いサンプル複雑性境界を与えることができる。
我々は、コンピュータ科学において最も強力なツールの一つである整数プログラミングの文脈において、我々の限界を実証的に評価する。
論文 参考訳(メタデータ) (2020-06-21T15:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。