論文の概要: No-Regret Reinforcement Learning with Heavy-Tailed Rewards
- arxiv url: http://arxiv.org/abs/2102.12769v1
- Date: Thu, 25 Feb 2021 10:25:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 14:01:12.801611
- Title: No-Regret Reinforcement Learning with Heavy-Tailed Rewards
- Title(参考訳): 重り付きリワードを用いた非Regret強化学習
- Authors: Vincent Zhuang, Yanan Sui
- Abstract要約: 重み付き報酬の学習の難しさが遷移確率の学習の難しさを左右することを示した。
我々のアルゴリズムは自然に深層強化学習アプリケーションに一般化する。
全てのアルゴリズムは、合成MDPと標準RLベンチマークの両方でベースラインを上回ります。
- 参考スコア(独自算出の注目度): 11.715649997214125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning algorithms typically assume rewards to be sampled from
light-tailed distributions, such as Gaussian or bounded. However, a wide
variety of real-world systems generate rewards that follow heavy-tailed
distributions. We consider such scenarios in the setting of undiscounted
reinforcement learning. By constructing a lower bound, we show that the
difficulty of learning heavy-tailed rewards asymptotically dominates the
difficulty of learning transition probabilities. Leveraging techniques from
robust mean estimation, we propose Heavy-UCRL2 and Heavy-Q-Learning, and show
that they achieve near-optimal regret bounds in this setting. Our algorithms
also naturally generalize to deep reinforcement learning applications; we
instantiate Heavy-DQN as an example of this. We demonstrate that all of our
algorithms outperform baselines on both synthetic MDPs and standard RL
benchmarks.
- Abstract(参考訳): 強化学習アルゴリズムは通常、ガウス分布や有界分布などの光尾分布から得られる報酬を仮定する。
しかし、現実世界のシステムは多岐にわたる分布に従った報酬を生み出します。
このようなシナリオは,未発表の強化学習の設定において考慮する。
下位境界を構築することにより,重み付き報酬の学習が漸近的に困難であることは,学習の遷移確率の難しさを左右することを示した。
本稿では,ロバスト平均推定による手法を活用し,ヘビー・UCRL2とヘビー・Q・ラーニングを提案する。
我々のアルゴリズムは自然に深層強化学習アプリケーションに一般化し、その例としてHeavy-DQNをインスタンス化する。
我々のアルゴリズムは、合成MDPと標準RLベンチマークの両方でベースラインを上回ります。
関連論文リスト
- Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - ContainerGym: A Real-World Reinforcement Learning Benchmark for Resource
Allocation [1.6058099298620425]
ContainerGymは、実世界の産業資源割り当てタスクにインスパイアされた強化学習のためのベンチマークである。
提案したベンチマークは、実世界のシーケンシャルな意思決定問題でよく遭遇する課題をエンコードする。
様々な難易度の問題をインスタンス化するように構成することもできる。
論文 参考訳(メタデータ) (2023-07-06T13:44:29Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。
本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。
我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文 参考訳(メタデータ) (2020-05-21T12:53:36Z) - Unbiased Deep Reinforcement Learning: A General Training Framework for
Existing and Future Algorithms [3.7050607140679026]
本稿では、概念的に理解可能で、強化学習のための全ての実行可能なアルゴリズムに一般化し易い、新しいトレーニングフレームワークを提案する。
我々はモンテカルロサンプリングを用いて生のデータ入力を実現し、マルコフ決定プロセスシーケンスを達成するためにバッチでそれらを訓練する。
我々は、典型的な離散的かつ連続的なシナリオを扱うために、新しいフレームワークに埋め込まれたアルゴリズムをいくつか提案する。
論文 参考訳(メタデータ) (2020-05-12T01:51:08Z) - Deep Reinforcement Learning with Weighted Q-Learning [43.823659028488876]
Q-learningに基づく強化学習アルゴリズムは、複雑な問題の解決に向けて、Deep Reinforcement Learning (DRL)研究を推進している。
Q-Learningは、期待値の雑音の最大過度推定を用いて学習するため、正の偏りがあることが知られている。
提案手法は, 提案手法により, バイアスw.r.t.関連ベースラインを減らし, その優位性を示す実証的な証拠を提供する。
論文 参考訳(メタデータ) (2020-03-20T13:57:40Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。