論文の概要: Generalization Analysis of Policy Networks: An Example of
Double-Integrator
- arxiv url: http://arxiv.org/abs/2312.10472v1
- Date: Sat, 16 Dec 2023 15:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:17:05.061192
- Title: Generalization Analysis of Policy Networks: An Example of
Double-Integrator
- Title(参考訳): 政策ネットワークの一般化分析:ダブル・インテグレータの例
- Authors: Ruining Zhang, Haoran Han, Maolong Lv, Qisong Yang, Jian Cheng
- Abstract要約: 本稿では、状態分割と呼ばれる新しい解析手法を用いて、性能劣化の原因を明らかにする。
状態空間の拡大は、飽和度を示すために活性化関数$tanh$を誘導し、状態分割境界を非線形から線形に変換することを示した。
- 参考スコア(独自算出の注目度): 13.012569626941062
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Extensive utilization of deep reinforcement learning (DRL) policy networks in
diverse continuous control tasks has raised questions regarding performance
degradation in expansive state spaces where the input state norm is larger than
that in the training environment. This paper aims to uncover the underlying
factors contributing to such performance deterioration when dealing with
expanded state spaces, using a novel analysis technique known as state
division. In contrast to prior approaches that employ state division merely as
a post-hoc explanatory tool, our methodology delves into the intrinsic
characteristics of DRL policy networks. Specifically, we demonstrate that the
expansion of state space induces the activation function $\tanh$ to exhibit
saturability, resulting in the transformation of the state division boundary
from nonlinear to linear. Our analysis centers on the paradigm of the
double-integrator system, revealing that this gradual shift towards linearity
imparts a control behavior reminiscent of bang-bang control. However, the
inherent linearity of the division boundary prevents the attainment of an ideal
bang-bang control, thereby introducing unavoidable overshooting. Our
experimental investigations, employing diverse RL algorithms, establish that
this performance phenomenon stems from inherent attributes of the DRL policy
network, remaining consistent across various optimization algorithms.
- Abstract(参考訳): 各種連続制御タスクにおける深部強化学習(DRL)政策網の大規模利用は,入力状態規範が訓練環境よりも大きい拡張状態空間における性能劣化に関する疑問を提起している。
本稿では、状態分割と呼ばれる新しい解析手法を用いて、拡張状態空間を扱う際の性能劣化の原因を明らかにすることを目的とする。
状態分割をポストホックな説明ツールとして用いた従来のアプローチとは対照的に,我々の方法論はDRL政策網の本質的な特性を考察する。
具体的には、状態空間の拡大は飽和性を示す活性化関数 $\tanh$ を誘導し、状態分割境界を非線形から線型へ変換することを示した。
本研究では,この線形性への段階的な変化がバンバン・バン制御を想起させる制御行動をもたらすことを明らかにした。
しかし、分割境界の固有の線形性は理想的なバンバン制御の実現を妨げ、避けられないオーバーシューティングをもたらす。
多様なRLアルゴリズムを用いた実験により、この性能現象はDRLポリシーネットワークの固有の特性に由来することが証明され、様々な最適化アルゴリズム間で一貫性が保たれている。
関連論文リスト
- Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Closed-form congestion control via deep symbolic regression [1.5961908901525192]
強化学習(RL)アルゴリズムは、超低レイテンシおよび高スループットシナリオにおける課題を処理することができる。
実際のデプロイメントにおけるニューラルネットワークモデルの採用は、リアルタイムの推論と解釈可能性に関して、依然としていくつかの課題を提起している。
本稿では,性能と一般化能力を維持しつつ,このような課題に対処する方法論を提案する。
論文 参考訳(メタデータ) (2024-03-28T14:31:37Z) - Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Diffusion Policies for Out-of-Distribution Generalization in Offline
Reinforcement Learning [1.9336815376402723]
オフラインのRLメソッドは、過去の経験を活用して、データ収集に使用される行動ポリシーよりも優れたポリシーを学ぶ。
しかし、オフラインのRLアルゴリズムは、トレーニング中にオンラインインタラクションが欠如しているため、分散シフトの処理やポリシーの効果的表現において課題に直面している。
本稿では,近年の拡散政策における状態再構成特徴学習を取り入れたSRDP(State Reconstruction for Diffusion Policies)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:34:23Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Catastrophic Interference in Reinforcement Learning: A Solution Based on
Context Division and Knowledge Distillation [8.044847478961882]
コンテクスト」の概念をシングルタスク強化学習に導入する。
我々は、コンテキスト分割と知識蒸留駆動RLと呼ばれる新しいスキームを開発する。
以上の結果から,CDaKDはメモリ容量の変動により,既存のRLアルゴリズムの性能を継続的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-09-01T12:02:04Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。