論文の概要: Long N-step Surrogate Stage Reward to Reduce Variances of Deep
Reinforcement Learning in Complex Problems
- arxiv url: http://arxiv.org/abs/2210.04820v1
- Date: Mon, 10 Oct 2022 16:32:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:49:22.000079
- Title: Long N-step Surrogate Stage Reward to Reduce Variances of Deep
Reinforcement Learning in Complex Problems
- Title(参考訳): 複素問題における深層強化学習のばらつきを軽減するためのnステップサロゲートステージ報酬
- Authors: Junmin Zhong, Ruofan Wu, Jennie Si
- Abstract要約: Long $N$-step surrogate stage (LNSS) reward approach to account for complex environment dynamics。
LNSSによる総報酬、収束速度、変動係数(CV)の観点から、性能改善を示す。
- 参考スコア(独自算出の注目度): 4.535864406864753
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High variances in reinforcement learning have shown impeding successful
convergence and hurting task performance. As reward signal plays an important
role in learning behavior, multi-step methods have been considered to mitigate
the problem, and are believed to be more effective than single step methods.
However, there is a lack of comprehensive and systematic study on this
important aspect to demonstrate the effectiveness of multi-step methods in
solving highly complex continuous control problems. In this study, we introduce
a new long $N$-step surrogate stage (LNSS) reward approach to effectively
account for complex environment dynamics while previous methods are usually
feasible for limited number of steps. The LNSS method is simple, low
computational cost, and applicable to value based or policy gradient
reinforcement learning. We systematically evaluate LNSS in OpenAI Gym and
DeepMind Control Suite to address some complex benchmark environments that have
been challenging to obtain good results by DRL in general. We demonstrate
performance improvement in terms of total reward, convergence speed, and
coefficient of variation (CV) by LNSS. We also provide analytical insights on
how LNSS exponentially reduces the upper bound on the variances of Q value from
a respective single step method
- Abstract(参考訳): 強化学習における高分散は、収束を阻害し、タスクパフォーマンスを損なう。
報酬信号は学習行動において重要な役割を果たすため、多段階法は問題を緩和すると考えられており、単段階法よりも効果的であると考えられている。
しかし、複雑な連続制御問題の解法における多段階法の有効性を示すために、この重要な側面に関する包括的かつ体系的な研究が欠如している。
本研究では, 従来の手法が限られたステップで実現可能であるのに対して, 複雑な環境のダイナミクスを効果的に考慮するために, 長いn$-step surrogate stage (lnss) アプローチを導入する。
LNSS法は単純で計算コストが低く、値ベースあるいはポリシー勾配強化学習に適用できる。
OpenAI Gym と DeepMind Control Suite の LNSS を体系的に評価し,DRL のよい結果を得るのが難しかった複雑なベンチマーク環境に対処する。
本稿では,総報酬,収束速度,変動係数(cv)の観点から,lssによる性能改善を示す。
また、LNSSが各単一ステップ法からQ値の分散の上限を指数関数的に減らす方法に関する分析的な洞察も提供する。
関連論文リスト
- Optimization by Parallel Quasi-Quantum Annealing with Gradient-Based Sampling [0.0]
本研究では、連続緩和による勾配に基づく更新と準量子アナリング(QQA)を組み合わせた別のアプローチを提案する。
数値実験により,本手法はiSCOと学習型解法に匹敵する性能を有する汎用解法であることが示された。
論文 参考訳(メタデータ) (2024-09-02T12:55:27Z) - Analytical Uncertainty-Based Loss Weighting in Multi-Task Learning [8.493889694402478]
マルチタスク学習(MTL)における鍵となる課題は、ニューラルネットワークトレーニング中の個々のタスク損失のバランスを取り、パフォーマンスと効率を改善することである。
本稿では,不確かさ重み付けの最も一般的な手法に基づくタスク重み付け手法を提案する。
我々のアプローチは、解析的に禁止された、スケーラブル化のブルートフォースアプローチに匹敵する結果をもたらす。
論文 参考訳(メタデータ) (2024-08-15T07:10:17Z) - Robust Analysis of Multi-Task Learning Efficiency: New Benchmarks on Light-Weighed Backbones and Effective Measurement of Multi-Task Learning Challenges by Feature Disentanglement [69.51496713076253]
本稿では,既存のMTL手法の効率性に焦点をあてる。
バックボーンを小さくしたメソッドの大規模な実験と,MetaGraspNetデータセットを新しいテストグラウンドとして実施する。
また,MTLにおける課題の新規かつ効率的な識別子として,特徴分散尺度を提案する。
論文 参考訳(メタデータ) (2024-02-05T22:15:55Z) - Curriculum Learning in Job Shop Scheduling using Reinforcement Learning [0.3867363075280544]
深層強化学習(DRL)は、困難な事例に対応するエージェントの計画戦略を動的に調整する。
学習プロセスの設計に,同じ問題サイズ内での難易度の変数を積極的に組み込むことにより,基礎的手法としてのDLRをさらに改善する。
論文 参考訳(メタデータ) (2023-05-17T13:15:27Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Reinforcement Learning with Fast Stabilization in Linear Dynamical
Systems [91.43582419264763]
未知の安定化線形力学系におけるモデルベース強化学習(RL)について検討する。
本研究では,環境を効果的に探索することで,基盤システムの高速安定化を証明できるアルゴリズムを提案する。
提案アルゴリズムはエージェント環境相互作用の時間ステップで$tildemathcalO(sqrtT)$ regretを達成した。
論文 参考訳(メタデータ) (2020-07-23T23:06:40Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Wasserstein Distance guided Adversarial Imitation Learning with Reward
Shape Exploration [21.870750931559915]
We propose a new algorithm called Wasserstein Distance guided Adrial Imitation Learning (WDAIL) for promote the performance of mimicion learning (IL)。
実験結果から,MuJoCoの複雑な連続制御タスクにおいて,学習手順は極めて安定であり,高い性能が得られた。
論文 参考訳(メタデータ) (2020-06-05T15:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。