論文の概要: Deep Bandits Show-Off: Simple and Efficient Exploration with Deep
Networks
- arxiv url: http://arxiv.org/abs/2105.04683v1
- Date: Mon, 10 May 2021 21:45:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 14:06:41.025438
- Title: Deep Bandits Show-Off: Simple and Efficient Exploration with Deep
Networks
- Title(参考訳): Deep Bandits Show-Off:Deep Networksによるシンプルで効率的な探索
- Authors: Mattia Rigotti, Rong Zhu
- Abstract要約: 文脈的包帯に対する簡便かつ効率的な不確実性尺度であるサンプル平均不確実性(SAU)を紹介する。
単純さのため、SAUはエプシロン・グレディ探索の非常にスケーラブルなドロップイン代替として、深い文脈の包帯にシームレスに適用できる。
- 参考スコア(独自算出の注目度): 14.178899938667161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing efficient exploration is central to Reinforcement Learning due to
the fundamental problem posed by the exploration-exploitation dilemma. Bayesian
exploration strategies like Thompson Sampling resolve this trade-off in a
principled way by modeling and updating the distribution of the parameters of
the the action-value function, the outcome model of the environment. However,
this technique becomes infeasible for complex environments due to the
difficulty of representing and updating probability distributions over
parameters of outcome models of corresponding complexity. Moreover, the
approximation techniques introduced to mitigate this issue typically result in
poor exploration-exploitation trade-offs, as observed in the case of deep
neural network models with approximate posterior methods that have been shown
to underperform in the deep bandit scenario.
In this paper we introduce Sample Average Uncertainty (SAU), a simple and
efficient uncertainty measure for contextual bandits. While Bayesian approaches
like Thompson Sampling estimate outcomes uncertainty indirectly by first
quantifying the variability over the parameters of the outcome model, SAU is a
frequentist approach that directly estimates the uncertainty of the outcomes
based on the value predictions. Importantly, we show theoretically that the
uncertainty measure estimated by SAU asymptotically matches the uncertainty
provided by Thompson Sampling, as well as its regret bounds. Because of its
simplicity SAU can be seamlessly applied to deep contextual bandits as a very
scalable drop-in replacement for epsilon-greedy exploration. Finally, we
empirically confirm our theory by showing that SAU-based exploration
outperforms current state-of-the-art deep Bayesian bandit methods on several
real-world datasets at modest computation cost.
- Abstract(参考訳): 効率的な探査を設計することは、探索-探索ジレンマによる根本的な問題のために強化学習の中心である。
トンプソンサンプリングのようなベイズ探検戦略は、行動-値関数のパラメータの分布、環境の結果モデルをモデル化し、更新することで、このトレードオフを原理的に解決する。
しかし, この手法は, 複雑な結果モデルのパラメータ上での確率分布の表現と更新が困難であるため, 複雑な環境において実現不可能となる。
さらに、この問題を緩和するために導入された近似手法は、深層バンディットのシナリオで過小評価された近似的な後方法を持つ深層ニューラルネットワークモデルで観察されるように、探索・爆発のトレードオフの低さをもたらす。
本稿では,文脈的包帯に対する簡易かつ効率的な不確実性尺度であるSample Average Uncertainty(SAU)を紹介する。
トンプソンサンプリングのようなベイズ的アプローチは、まず結果モデルのパラメータに対する変数を定量化することで、不確実性を間接的に推定するが、SAUは値予測に基づいて結果の不確実性を直接推定する頻繁なアプローチである。
理論上は, sau が漸近的に推定する不確実性測度は, トンプソンサンプリングによる不確実性と後悔の限界と一致することが示されている。
単純さのため、SAUはエプシロン・グレディ探索の非常にスケーラブルなドロップイン代替として、深い文脈の包帯にシームレスに適用できる。
最後に,本理論を実証的に検証し,sauに基づく探索が,いくつかの実世界のデータセットにおける最先端のディープベイズ・バンディット法をわずかに計算コストで上回ることを示した。
関連論文リスト
- Regret Minimization and Statistical Inference in Online Decision Making with High-dimensional Covariates [7.21848268647674]
我々は、決定のための$varepsilon$-greedybanditアルゴリズムと、疎帯域パラメータを推定するためのハードしきい値アルゴリズムを統合する。
マージン条件下では、我々の手法は、$O(T1/2)$ regret あるいは古典的な$O(T1/2)$-consistent推論のいずれかを達成する。
論文 参考訳(メタデータ) (2024-11-10T01:47:11Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。
複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。
提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文 参考訳(メタデータ) (2023-10-10T14:06:56Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - On the Pitfalls of Heteroscedastic Uncertainty Estimation with
Probabilistic Neural Networks [23.502721524477444]
このアプローチがいかにして非常に貧弱だが安定な推定に繋がるかを示す合成例を示す。
問題を悪化させる特定の条件とともに、犯人をログライクな損失とみなす。
我々は、損失に対する各データポイントの寄与を、$beta$-exponentiated variance estimateによって重み付けする、$beta$-NLLと呼ばれる別の定式化を提案する。
論文 参考訳(メタデータ) (2022-03-17T08:46:17Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z) - A Unifying Theory of Thompson Sampling for Continuous Risk-Averse
Bandits [91.3755431537592]
本稿では,多腕バンディット問題に対するリスク-逆トンプソンサンプリングアルゴリズムの解析を統一する。
大規模偏差理論における収縮原理を用いることで、連続リスク汎関数に対する新しい濃度境界が証明される。
リスク関数の幅広いクラスと「ニセ」関数が連続性条件を満たすことを示す。
論文 参考訳(メタデータ) (2021-08-25T17:09:01Z) - Calibration and Uncertainty Quantification of Bayesian Convolutional
Neural Networks for Geophysical Applications [0.0]
このような地下モデルによる予測の不確実性は、キャリブレーションされた確率と関連する不確かさを予測に組み込むのが一般的である。
一般的なディープラーニングベースのモデルは、しばしば誤解され、決定論的性質のため、予測の不確実性を解釈する手段がないことが示されている。
ベイズ形式論における畳み込みニューラルネットワークに基づく確率モデルを得るための3つの異なるアプローチを比較した。
論文 参考訳(メタデータ) (2021-05-25T17:54:23Z) - Temporal Difference Uncertainties as a Signal for Exploration [76.6341354269013]
強化学習における探索の効果的なアプローチは、最適な政策に対するエージェントの不確実性に依存することである。
本稿では,評価値のバイアスや時間的に矛盾する点を強調した。
本稿では,時間差誤差の分布の導出に依存する値関数の不確かさを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T18:11:22Z) - Uncertainty Estimation Using a Single Deep Deterministic Neural Network [66.26231423824089]
本稿では,1回のフォワードパスで,テスト時に分布データポイントの発見と拒否が可能な決定論的ディープモデルを訓練する手法を提案する。
我々は,新しい損失関数とセントロイド更新方式を用いて,これらをスケールトレーニングし,ソフトマックスモデルの精度に適合させる。
論文 参考訳(メタデータ) (2020-03-04T12:27:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。