論文の概要: Convergence Guarantees for Deep Epsilon Greedy Policy Learning
- arxiv url: http://arxiv.org/abs/2112.03376v1
- Date: Thu, 2 Dec 2021 04:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-12 15:19:38.454127
- Title: Convergence Guarantees for Deep Epsilon Greedy Policy Learning
- Title(参考訳): ディープ・エプシロン・グリーディ政策学習のための収束保証
- Authors: Michael Rawson, Radu Balan
- Abstract要約: 本稿では,ニューラルネットワークの予測による動作を選択するディープ・エプシロン・グリーディ法について,誤りや後悔,収束性を示す。
実世界のデータセットMNISTを用いた実験では,非線形強化学習問題を構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy learning is a quickly growing area. As robotics and computers control
day-to-day life, their error rate needs to be minimized and controlled. There
are many policy learning methods and provable error rates that accompany them.
We show an error or regret bound and convergence of the Deep Epsilon Greedy
method which chooses actions with a neural network's prediction. In experiments
with the real-world dataset MNIST, we construct a nonlinear reinforcement
learning problem. We witness how with either high or low noise, some methods do
and some do not converge which agrees with our proof of convergence.
- Abstract(参考訳): 政策学習は急速に成長している分野です。
ロボットとコンピュータが日々の生活をコントロールしているので、エラー率を最小限に抑える必要がある。
多くのポリシー学習方法や証明可能なエラー率がある。
本稿では,ニューラルネットワークの予測による動作を選択するディープ・エプシロン・グリーディ法について,誤りや後悔,収束性を示す。
実世界のデータセットMNISTを用いた実験では,非線形強化学習問題を構築した。
高ノイズか低ノイズか、いくつかのメソッドがどう収束するか、いくつかのメソッドは収束せず、収束の証明に同意します。
関連論文リスト
- Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Differentially Private Federated Learning via Inexact ADMM with Multiple
Local Updates [0.0]
我々は,複数の局所的な更新を施した乗算器アルゴリズムのDP不正確な交互方向法を開発した。
当社のアルゴリズムでは,各イテレーション毎に$barepsilon$-DPを提供しており,$barepsilon$はユーザが管理するプライバシ予算である。
提案アルゴリズムは,既存のDPアルゴリズムと比較してテストエラーを少なくとも31%削減すると同時に,データプライバシのレベルが同じであることを実証する。
論文 参考訳(メタデータ) (2022-02-18T19:58:47Z) - Differentially Private Federated Learning via Inexact ADMM [0.0]
差分プライバシー(DP)技術は、データプライバシを推論攻撃から保護するために、フェデレーション付き学習モデルに適用することができる。
我々は,信頼領域のサブプロブレム列を解く乗算器アルゴリズムのDP不正確な交互方向法を開発した。
提案アルゴリズムは,既存のDPアルゴリズムと比較してテストエラーを少なくとも22%削減すると同時に,データプライバシのレベルも同等に向上する。
論文 参考訳(メタデータ) (2021-06-11T02:28:07Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。
破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T14:19:07Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z) - Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文 参考訳(メタデータ) (2020-10-09T20:25:14Z) - Non-Adversarial Imitation Learning and its Connections to Adversarial
Methods [21.89749623434729]
非対人模倣学習のための枠組みを提案する。
結果のアルゴリズムは敵のアルゴリズムと似ている。
また, 新たなアルゴリズムを導出するために, 我々の非敵対的定式化が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-08T13:43:06Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。