論文の概要: Multiplier Bootstrap-based Exploration
- arxiv url: http://arxiv.org/abs/2302.01543v1
- Date: Fri, 3 Feb 2023 04:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:23:07.143814
- Title: Multiplier Bootstrap-based Exploration
- Title(参考訳): マルチプライヤブートストラップに基づく探索
- Authors: Runzhe Wan, Haoyu Wei, Branislav Kveton and Rui Song
- Abstract要約: 重み付き損失最小化に適用可能な任意の報酬モデルに適用可能な新しい探索戦略を提案する。
我々は、ガウス以南のマルチアーマーバンドにおけるMBEのインスタンス依存とインスタンス非依存の速度-最適後悔境界を証明した。
- 参考スコア(独自算出の注目度): 18.664354303833022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the great interest in the bandit problem, designing efficient
algorithms for complex models remains challenging, as there is typically no
analytical way to quantify uncertainty. In this paper, we propose Multiplier
Bootstrap-based Exploration (MBE), a novel exploration strategy that is
applicable to any reward model amenable to weighted loss minimization. We prove
both instance-dependent and instance-independent rate-optimal regret bounds for
MBE in sub-Gaussian multi-armed bandits. With extensive simulation and real
data experiments, we show the generality and adaptivity of MBE.
- Abstract(参考訳): バンドイット問題に対する大きな関心にもかかわらず、複雑なモデルの効率的なアルゴリズムを設計することは依然として難しい。
本稿では,重み付き損失最小化が可能な任意の報酬モデルに適用可能な新しい探索戦略であるMultiplier Bootstrap-based Exploration(MBE)を提案する。
サブガウシアン・マルチアームド・バンディットにおけるmbeのインスタンス依存とインスタンス非依存のレート-オプティマイズ境界の両方を証明した。
シミュレーションと実データ実験により, MBEの一般化と適応性を示す。
関連論文リスト
- Model-Free Active Exploration in Reinforcement Learning [53.786439742572995]
強化学習における探索問題について検討し,新しいモデルフリーソリューションを提案する。
我々の戦略は、最先端の探査アプローチよりも高速に効率的な政策を特定できる。
論文 参考訳(メタデータ) (2024-06-30T19:00:49Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - Genetic multi-armed bandits: a reinforcement learning approach for
discrete optimization via simulation [0.0]
本稿では,マルチアームバンディットの強化学習領域とランダム検索戦略を組み合わせて,シミュレーションによる離散最適化問題の解法を提案する。
本研究の目的は,多腕バンディットの特性と遺伝的アルゴリズムの高次元解空間処理能力を組み合わせることである。
論文 参考訳(メタデータ) (2023-02-15T14:46:19Z) - From Optimality to Robustness: Dirichlet Sampling Strategies in
Stochastic Bandits [0.0]
本研究では、腕の観察を再サンプリングした経験的指標のペア比較に基づいて、ジェネリックディリクレサンプリング(DS)アルゴリズムについて検討する。
この戦略の異なる変種は、分布が有界であるときに証明可能な最適後悔保証と、半有界分布に対して軽度量子状態の対数後悔を実現することを示す。
論文 参考訳(メタデータ) (2021-11-18T14:34:21Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Multimodal Reward Shaping for Efficient Exploration in Reinforcement
Learning [8.810296389358134]
IRSモジュールは、学習手順を記録し解析するために、アテンダントモデルや追加メモリに依存している。
エントロピー正則化器を置き換えるために,ジャイナの公正度指数 (JFI) という新しい指標を導入する。
論文 参考訳(メタデータ) (2021-07-19T14:04:32Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。