論文の概要: Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics
- arxiv url: http://arxiv.org/abs/2002.06063v2
- Date: Thu, 5 Nov 2020 19:09:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 04:04:03.448240
- Title: Robust Reinforcement Learning via Adversarial training with Langevin
Dynamics
- Title(参考訳): ランジュバンダイナミクスを用いた逆訓練によるロバスト強化学習
- Authors: Parameswaran Kamalaruban, Yu-Ting Huang, Ya-Ping Hsieh, Paul Rolland,
Cheng Shi, Volkan Cevher
- Abstract要約: 本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。
本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 51.234482917047835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a sampling perspective to tackle the challenging task of
training robust Reinforcement Learning (RL) agents. Leveraging the powerful
Stochastic Gradient Langevin Dynamics, we present a novel, scalable two-player
RL algorithm, which is a sampling variant of the two-player policy gradient
method. Our algorithm consistently outperforms existing baselines, in terms of
generalization across different training and testing conditions, on several
MuJoCo environments. Our experiments also show that, even for objective
functions that entirely ignore potential environmental shifts, our sampling
approach remains highly robust in comparison to standard RL algorithms.
- Abstract(参考訳): 本稿では,ロバスト強化学習 (rl) エージェントの訓練の課題に取り組むためのサンプリング視点を提案する。
強力な確率的グラディエント・ランゲヴィン・ダイナミクスを応用して,2プレイヤーポリシー勾配法のサンプリング版である,スケーラブルな2プレイヤーRLアルゴリズムを提案する。
提案アルゴリズムは,MuJoCo環境において,異なるトレーニング条件とテスト条件をまたいだ一般化の観点から,既存のベースラインを一貫して上回る。
また, 環境変化を完全に無視する目的関数においても, サンプリング手法は標準RLアルゴリズムと比較して非常に堅牢であることを示す。
関連論文リスト
- ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z) - Natural Actor-Critic for Robust Reinforcement Learning with Function
Approximation [20.43657369407846]
本研究では,トレーニングシミュレータとテスト環境間のモデルミスマッチに対して頑健な評価政策を決定することを目的として,ロバスト強化学習(RL)について検討する。
本稿では2つの新しい不確実性集合の定式化を提案し,その1つは二重サンプリングに基づくものであり,もう1つは積分確率計量に基づくものである。
複数の MuJoCo 環境と実世界の TurtleBot ナビゲーションタスクにおいて,提案した RNAC アプローチによって学習されたポリシーの堅牢性を示す。
論文 参考訳(メタデータ) (2023-07-17T22:10:20Z) - Proximal Policy Gradient Arborescence for Quality Diversity
Reinforcement Learning [14.16864939687988]
環境を徹底的に探求し、新しい多様なスキルを学ぶ、一般的に有能なエージェントを訓練することは、ロボット学習の長期的な目標である。
品質多様性強化学習(QD-RL: Quality Diversity Reinforcement Learning)は、両分野の最高の側面をブレンドする新興研究分野である。
論文 参考訳(メタデータ) (2023-05-23T08:05:59Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Accelerating Reinforcement Learning with a
Directional-Gaussian-Smoothing Evolution Strategy [3.404507240556492]
進化戦略 (ES) は多くの困難強化学習 (RL) タスクにおいて大きな期待が持たれている。
現在のESプラクティスには2つの制限があり、そうでなければそのさらなる能力を妨げる可能性がある。
本研究では、DGS-ES(Directional Gaussian Smoothing Evolutionary Strategy)を用いてRL訓練を加速する。
DGS-ESは高いスケーラビリティを持ち、ウォールクロック時間に優れており、他の一般的な政策勾配やESアプローチと競合する報酬スコアが得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T01:05:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。