論文の概要: The Ladder in Chaos: A Simple and Effective Improvement to General DRL
Algorithms by Policy Path Trimming and Boosting
- arxiv url: http://arxiv.org/abs/2303.01391v1
- Date: Thu, 2 Mar 2023 16:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:24:32.035247
- Title: The Ladder in Chaos: A Simple and Effective Improvement to General DRL
Algorithms by Policy Path Trimming and Boosting
- Title(参考訳): カオスにおけるラダー:政策経路トリミングとブースティングによる一般DRLアルゴリズムの簡易かつ効果的な改善
- Authors: Hongyao Tang, Min Zhang, Jianye Hao
- Abstract要約: 典型的なDRLエージェントのポリシーネットワークは,学習過程においてどのように進化するかを検討する。
ポリシー学習経路に沿って新しい時間的SVDを実行することにより、主パラメータ方向とマイナーパラメータ方向を識別する。
本稿では,DRLアルゴリズムの汎用的なプラグイン改良として,PPTB(Policy Path Trimming and Boosting)と呼ばれるシンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 36.79097098009172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowing the learning dynamics of policy is significant to unveiling the
mysteries of Reinforcement Learning (RL). It is especially crucial yet
challenging to Deep RL, from which the remedies to notorious issues like sample
inefficiency and learning instability could be obtained. In this paper, we
study how the policy networks of typical DRL agents evolve during the learning
process by empirically investigating several kinds of temporal change for each
policy parameter. On typical MuJoCo and DeepMind Control Suite (DMC)
benchmarks, we find common phenomena for TD3 and RAD agents: 1) the activity of
policy network parameters is highly asymmetric and policy networks advance
monotonically along very few major parameter directions; 2) severe detours
occur in parameter update and harmonic-like changes are observed for all minor
parameter directions. By performing a novel temporal SVD along policy learning
path, the major and minor parameter directions are identified as the columns of
right unitary matrix associated with dominant and insignificant singular values
respectively. Driven by the discoveries above, we propose a simple and
effective method, called Policy Path Trimming and Boosting (PPTB), as a general
plug-in improvement to DRL algorithms. The key idea of PPTB is to periodically
trim the policy learning path by canceling the policy updates in minor
parameter directions, while boost the learning path by encouraging the advance
in major directions. In experiments, we demonstrate the general and significant
performance improvements brought by PPTB, when combined with TD3 and RAD in
MuJoCo and DMC environments respectively.
- Abstract(参考訳): ポリシーの学習ダイナミクスを知ることは強化学習(rl)の謎を明らかにする上で重要である。
特にDeep RLにとって、サンプルの非効率性や学習不安定性といった悪名高い問題に対処することは、非常に難しい。
本稿では,典型的なDRLエージェントのポリシーネットワークが学習過程でどのように進化するかを,各ポリシーパラメータの時間的変化を実証的に検討する。
典型的な MuJoCo および DeepMind Control Suite (DMC) ベンチマークでは、TD3 および RAD エージェントに共通する現象が見つかる。
1)政策ネットワークパラメータの活性は高度に非対称であり,政策ネットワークは極めて少数の主要なパラメータ方向に沿って単調に進行する。
2) パラメータ更新時に重大な輪郭が出現し, すべてのマイナーパラメータ方向に対して高調波的な変化が観測される。
ポリシー学習経路に沿って新しい時間的SVDを実行することにより、主パラメータ方向と小パラメータ方向を、それぞれ支配的および重要でない特異値に関連付けられた右ユニタリ行列の列として識別する。
上記の発見に触発されて,drlアルゴリズムの一般的なプラグイン改善として,ポリシパストリミング・ブースティング(pptb)と呼ばれる,簡便で効果的な手法を提案する。
PPTBの鍵となる考え方は、政策更新を小さなパラメータの方向でキャンセルし、主要な方向に進むことを奨励して学習経路を強化することで、政策学習経路を定期的にトリムすることである。
実験では, PPTB と TD3 と RAD を組み合わせた MuJoCo および DMC 環境において, PPTB がもたらす全般的および重要な性能改善を実証した。
関連論文リスト
- Improving Deep Reinforcement Learning by Reducing the Chain Effect of Value and Policy Churn [14.30387204093346]
ディープニューラルネットワークは、大規模な意思決定問題に対処するために強化学習(RL)強力な関数近似器を提供する。
RLの課題の1つは、出力予測が小さくなり、バッチに含まれない状態に対する各バッチ更新後の制御不能な変更につながることである。
本稿では,既存のDRLアルゴリズムに容易に接続可能なChurn Approximated ReductIoN (CHAIN) と呼ばれる,異なる設定でチェーン効果を低減させる手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T11:08:20Z) - Parametric PDE Control with Deep Reinforcement Learning and Differentiable L0-Sparse Polynomial Policies [0.5919433278490629]
パラメトリック偏微分方程式(PDE)の最適制御は、工学や科学における多くの応用において重要である。
深部強化学習(DRL)は高次元および複雑な制御問題を解く可能性がある。
本研究では、辞書学習とL$_0$正規化を利用して、PDEのスパース、ロバスト、解釈可能な制御ポリシーを学習する。
論文 参考訳(メタデータ) (2024-03-22T15:06:31Z) - Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Deep Reinforcement Learning using Cyclical Learning Rates [62.19441737665902]
勾配降下(SGD)に基づく最適化手順における最も影響力のあるパラメータの1つは、学習率である。
循環学習について検討し,様々なDRL問題に対する一般循環学習率の定義法を提案する。
本実験により, 循環学習は, 高度に調整された固定学習率よりも, 類似あるいは良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-31T10:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。