論文の概要: State-Aware Variational Thompson Sampling for Deep Q-Networks
- arxiv url: http://arxiv.org/abs/2102.03719v1
- Date: Sun, 7 Feb 2021 05:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 06:16:02.385890
- Title: State-Aware Variational Thompson Sampling for Deep Q-Networks
- Title(参考訳): ディープqネットワークのための状態対応変分トンプソンサンプリング
- Authors: Siddharth Aravindan, Wee Sun Lee
- Abstract要約: 学習した変分雑音分布によってパラメータが摂動するディープネットワークを用いてDQNの変分トンプソンサンプリング近似を導出する。
本研究では,不均一な摂動を許容し,ノイズネットの改善を目指す状態認識ノイズ探索(SANE)を提案する。
- 参考スコア(独自算出の注目度): 23.039327922407566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Thompson sampling is a well-known approach for balancing exploration and
exploitation in reinforcement learning. It requires the posterior distribution
of value-action functions to be maintained; this is generally intractable for
tasks that have a high dimensional state-action space. We derive a variational
Thompson sampling approximation for DQNs which uses a deep network whose
parameters are perturbed by a learned variational noise distribution. We
interpret the successful NoisyNets method \cite{fortunato2018noisy} as an
approximation to the variational Thompson sampling method that we derive.
Further, we propose State Aware Noisy Exploration (SANE) which seeks to improve
on NoisyNets by allowing a non-uniform perturbation, where the amount of
parameter perturbation is conditioned on the state of the agent. This is done
with the help of an auxiliary perturbation module, whose output is state
dependent and is learnt end to end with gradient descent. We hypothesize that
such state-aware noisy exploration is particularly useful in problems where
exploration in certain \textit{high risk} states may result in the agent
failing badly. We demonstrate the effectiveness of the state-aware exploration
method in the off-policy setting by augmenting DQNs with the auxiliary
perturbation module.
- Abstract(参考訳): thompson samplingは強化学習における探索と搾取のバランスをとるためのよく知られたアプローチである。
価値アクション関数の後方分布を維持する必要があるが、高次元のステートアクション空間を持つタスクでは一般的には役に立たない。
学習した変動雑音分布によってパラメータが摂動するディープネットワークを用いたDQNに対する変分トンプソンサンプリング近似を導出する。
提案手法は,本手法が導出する変分トンプソンサンプリング法の近似として,成功したNoisyNets法を解釈する。
さらに、パラメータの摂動の量がエージェントの状態によって調整されるような不均一な摂動を可能にすることにより、NoisyNetsの改善を目指すState Aware Noisy Exploration(SANE)を提案します。
これは、出力が状態に依存し、勾配降下で終わりから終わりまで学習される補助摂動モジュールの助けを借りて行われる。
このような状態認識型のノイズ探索は、特定の \textit{high risk}状態における探索がエージェントの失敗に繋がる可能性のある問題において特に有用であると仮定する。
補助摂動モジュールを用いたDQNの増強により、オフポリシ設定における状態認識探索法の有効性を実証する。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Noisy Spiking Actor Network for Exploration [56.13654667729119]
スパイキングニューラルネットワーク(SNN)はノイズに対して強い堅牢性を持ち、局所的な障害による効率的な探索を実現することは困難である。
本稿では,充電・送信中の時間関連ノイズを発生させるノイズの多いスパイクアクタネットワーク(ノイズSAN)を提案する。
本手法は,OpenAI体育館の多種多様な連続制御タスクにおいて,最先端の性能を向上する。
論文 参考訳(メタデータ) (2024-03-07T02:47:08Z) - Thompson Sampling for Stochastic Bandits with Noisy Contexts: An Information-Theoretic Regret Analysis [4.297070083645049]
本研究では,エージェントが真コンテキストのノイズや破損したバージョンを観測するコンテキスト線形帯域問題について検討する。
我々の目標は、託宣の「近似可能なアクションポリシー」を設計することである。
論文 参考訳(メタデータ) (2024-01-21T18:57:38Z) - Noisy Pair Corrector for Dense Retrieval [59.312376423104055]
ノイズペアコレクタ(NPC)と呼ばれる新しい手法を提案する。
NPCは検出モジュールと修正モジュールから構成される。
我々は,テキスト検索ベンチマークのNatural QuestionとTriviaQA,コード検索ベンチマークのStaQCとSO-DSで実験を行った。
論文 参考訳(メタデータ) (2023-11-07T08:27:14Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - DINF: Dynamic Instance Noise Filter for Occluded Pedestrian Detection [0.0]
RCNNベースの歩行者検出器は、矩形領域を使用してインスタンスの特徴を抽出する。
重なり合うオブジェクトの数とわずかに重なり合うオブジェクトの数は不均衡である。
RCNNをベースとした歩行者検知器の信号雑音比を改善するために, 繰り返し動的インスタンスノイズフィルタ (DINF) を提案する。
論文 参考訳(メタデータ) (2023-01-13T14:12:36Z) - Automatic tempered posterior distributions for Bayesian inversion
problems [0.0]
この手法は反復的な手順で実装され、サンプリングと最適化のステップを交互に行う。
雑音パワーは、興味のある変数の後方分布の摂動パラメータとしても用いられる。
モデルパラメータとスケールパラメータに関するベイズ的な完全な研究も行うことができる。
論文 参考訳(メタデータ) (2021-07-24T14:06:00Z) - Square Root Principal Component Pursuit: Tuning-Free Noisy Robust Matrix
Recovery [8.581512812219737]
本稿では,ノイズや外周波で劣化した観測結果から低ランク行列を復元する新しい枠組みを提案する。
平方根のラッソにインスパイアされたこの新しい定式化は、ノイズレベルに関する事前の知識を必要としない。
正規化パラメータの1つの普遍的な選択は、(事前未知の)雑音レベルに比例した再構成誤差を達成するのに十分であることを示す。
論文 参考訳(メタデータ) (2021-06-17T02:28:11Z) - Analysis and Design of Thompson Sampling for Stochastic Partial
Monitoring [91.22679787578438]
部分モニタリングのためのトンプソンサンプリングに基づく新しいアルゴリズムを提案する。
局所可観測性を持つ問題の線形化変種に対して,新たなアルゴリズムが対数問題依存の擬似回帰$mathrmO(log T)$を達成することを証明した。
論文 参考訳(メタデータ) (2020-06-17T05:48:33Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。