論文の概要: Anti-Concentrated Confidence Bonuses for Scalable Exploration
- arxiv url: http://arxiv.org/abs/2110.11202v1
- Date: Thu, 21 Oct 2021 15:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 17:34:01.761347
- Title: Anti-Concentrated Confidence Bonuses for Scalable Exploration
- Title(参考訳): スケーラブルな探索のための反集中型信頼ボーナス
- Authors: Jordan T. Ash, Cyril Zhang, Surbhi Goel, Akshay Krishnamurthy, Sham
Kakade
- Abstract要約: 固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
- 参考スコア(独自算出の注目度): 57.91943847134011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic rewards play a central role in handling the
exploration-exploitation trade-off when designing sequential decision-making
algorithms, in both foundational theory and state-of-the-art deep reinforcement
learning. The LinUCB algorithm, a centerpiece of the stochastic linear bandits
literature, prescribes an elliptical bonus which addresses the challenge of
leveraging shared information in large action spaces. This bonus scheme cannot
be directly transferred to high-dimensional exploration problems, however, due
to the computational cost of maintaining the inverse covariance matrix of
action features. We introduce \emph{anti-concentrated confidence bounds} for
efficiently approximating the elliptical bonus, using an ensemble of regressors
trained to predict random noise from policy network-derived features. Using
this approximation, we obtain stochastic linear bandit algorithms which obtain
$\tilde O(d \sqrt{T})$ regret bounds for $\mathrm{poly}(d)$ fixed actions. We
develop a practical variant for deep reinforcement learning that is competitive
with contemporary intrinsic reward heuristics on Atari benchmarks.
- Abstract(参考訳): 内在的な報酬は、基礎理論と最先端の深層強化学習の両方において、シーケンシャルな意思決定アルゴリズムを設計する際の探索と探索のトレードオフを扱う上で中心的な役割を果たす。
LinUCBアルゴリズムは確率線形バンドイット文学の中心であり、大きなアクション空間における共有情報の活用という課題に対処する楕円ボーナスを規定する。
このボーナススキームは高次元探索問題に直接転送することはできないが、作用特徴の逆共分散行列を維持する計算コストのためである。
本稿では,政策ネットワークの特徴からランダムノイズを予測できるレグレッシャのアンサンブルを用いて,効率良く楕円ボーナスの近似を行うために,emph{anti-concentrating confidence bounds}を導入する。
この近似を用いて、確率線形バンディットアルゴリズムを求め、$\tilde O(d \sqrt{T})$ regret bounds for $\mathrm{poly}(d)$ fixed actionsを得る。
我々は,Atariベンチマーク上での現代の固有報酬ヒューリスティックと競合する,深層強化学習のための実用的変種を開発する。
関連論文リスト
- Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Learning Contextual Bandits Through Perturbed Rewards [107.6210145983805]
標準正規性条件下では、$tildeO(tildedsqrtT)$ regret上界が達成可能であることを示す。
明示的な探索の必要性を排除するために、ニューラルネットワークを更新する際の報酬を混乱させます。
論文 参考訳(メタデータ) (2022-01-24T19:10:22Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。