Fugu-MT 論文翻訳(概要): Convergence Guarantees for Deep Epsilon Greedy Policy Learning

論文の概要: Convergence Guarantees for Deep Epsilon Greedy Policy Learning

arxiv url: http://arxiv.org/abs/2112.03376v1
Date: Thu, 2 Dec 2021 04:05:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-12 15:19:38.454127
Title: Convergence Guarantees for Deep Epsilon Greedy Policy Learning
Title（参考訳）: ディープ・エプシロン・グリーディ政策学習のための収束保証
Authors: Michael Rawson, Radu Balan
Abstract要約: 本稿では,ニューラルネットワークの予測による動作を選択するディープ・エプシロン・グリーディ法について,誤りや後悔,収束性を示す。実世界のデータセットMNISTを用いた実験では,非線形強化学習問題を構築した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Policy learning is a quickly growing area. As robotics and computers control day-to-day life, their error rate needs to be minimized and controlled. There are many policy learning methods and provable error rates that accompany them. We show an error or regret bound and convergence of the Deep Epsilon Greedy method which chooses actions with a neural network's prediction. In experiments with the real-world dataset MNIST, we construct a nonlinear reinforcement learning problem. We witness how with either high or low noise, some methods do and some do not converge which agrees with our proof of convergence.
Abstract（参考訳）: 政策学習は急速に成長している分野です。ロボットとコンピュータが日々の生活をコントロールしているので、エラー率を最小限に抑える必要がある。多くのポリシー学習方法や証明可能なエラー率がある。本稿では,ニューラルネットワークの予測による動作を選択するディープ・エプシロン・グリーディ法について,誤りや後悔,収束性を示す。実世界のデータセットMNISTを用いた実験では,非線形強化学習問題を構築した。高ノイズか低ノイズか、いくつかのメソッドがどう収束するか、いくつかのメソッドは収束せず、収束の証明に同意します。

関連論文リスト

Confounding Robust Deep Reinforcement Learning: A Causal Approach [53.63254824501714]
本稿では,DQN(Deep Q-Network)に基づいて,観測データのバイアスの解消に頑健な新しい強化学習アルゴリズムを提案する。提案手法は,12個のAtariゲームに対して適用され,観察された動作および目標ポリシーへの入力がミスマッチおよび観測されていない共同創設者が存在するすべてのゲームにおいて,標準DQNを一貫して支配していることがわかった。
論文参考訳（メタデータ） (2025-10-24T02:58:01Z)
Quantile-Optimal Policy Learning under Unmeasured Confounding [55.72891849926314]
ここでは,報酬分布が (0, 1) で最大$alpha$-quantileを持つポリシーを見つけることを目標とする量子最適政策学習について検討する。このような問題は、(i)報酬分布の関数としての量子目標の非線形性、(ii)未観測の共起問題、(iii)オフラインデータセットのカバー不足という3つの大きな課題に悩まされている。
論文参考訳（メタデータ） (2025-06-08T13:37:38Z)
Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文参考訳（メタデータ） (2024-02-24T09:47:46Z)
Differentially Private Federated Learning via Inexact ADMM with Multiple Local Updates [0.0]
我々は,複数の局所的な更新を施した乗算器アルゴリズムのDP不正確な交互方向法を開発した。当社のアルゴリズムでは,各イテレーション毎に$barepsilon$-DPを提供しており,$barepsilon$はユーザが管理するプライバシ予算である。提案アルゴリズムは,既存のDPアルゴリズムと比較してテストエラーを少なくとも31%削減すると同時に,データプライバシのレベルが同じであることを実証する。
論文参考訳（メタデータ） (2022-02-18T19:58:47Z)
Differentially Private Federated Learning via Inexact ADMM [0.0]
差分プライバシー(DP)技術は、データプライバシを推論攻撃から保護するために、フェデレーション付き学習モデルに適用することができる。我々は,信頼領域のサブプロブレム列を解く乗算器アルゴリズムのDP不正確な交互方向法を開発した。提案アルゴリズムは,既存のDPアルゴリズムと比較してテストエラーを少なくとも22%削減すると同時に,データプライバシのレベルも同等に向上する。
論文参考訳（メタデータ） (2021-06-11T02:28:07Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文参考訳（メタデータ） (2021-02-18T08:54:14Z)
Online Limited Memory Neural-Linear Bandits with Likelihood Matching [53.18698496031658]
本研究では,探索学習と表現学習の両方が重要な役割を果たす課題を解決するために,ニューラルネットワークの帯域について検討する。破滅的な忘れ込みに対して耐性があり、完全にオンラインである可能性の高いマッチングアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-07T14:19:07Z)
Attribute-Guided Adversarial Training for Robustness to Natural Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文参考訳（メタデータ） (2020-12-03T10:17:30Z)
Hindsight Experience Replay with Kronecker Product Approximate Curvature [5.441932327359051]
Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
論文参考訳（メタデータ） (2020-10-09T20:25:14Z)
Non-Adversarial Imitation Learning and its Connections to Adversarial Methods [21.89749623434729]
非対人模倣学習のための枠組みを提案する。結果のアルゴリズムは敵のアルゴリズムと似ている。また, 新たなアルゴリズムを導出するために, 我々の非敵対的定式化が有効であることを示す。
論文参考訳（メタデータ） (2020-08-08T13:43:06Z)
DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文参考訳（メタデータ） (2020-03-16T16:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。