論文の概要: Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning
- arxiv url: http://arxiv.org/abs/2211.13257v1
- Date: Wed, 23 Nov 2022 19:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 15:08:32.977810
- Title: Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning
- Title(参考訳): 継続的な行動空間の表現学習は効果的な政策学習に役立つ
- Authors: Tingting Zhao, Ying Wang, Wei Sun, Yarui Chen, Gang Niub, Masashi
Sugiyama
- Abstract要約: 深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
- 参考スコア(独自算出の注目度): 64.14557731665577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) breaks through the bottlenecks of
traditional reinforcement learning (RL) with the help of the perception
capability of deep learning and has been widely applied in real-world
problems.While model-free RL, as a class of efficient DRL methods, performs the
learning of state representations simultaneously with policy learning in an
end-to-end manner when facing large-scale continuous state and action spaces.
However, training such a large policy model requires a large number of
trajectory samples and training time. On the other hand, the learned policy
often fails to generalize to large-scale action spaces, especially for the
continuous action spaces. To address this issue, in this paper we propose an
efficient policy learning method in latent state and action spaces. More
specifically, we extend the idea of state representations to action
representations for better policy generalization capability. Meanwhile, we
divide the whole learning task into learning with the large-scale
representation models in an unsupervised manner and learning with the
small-scale policy model in the RL manner.The small policy model facilitates
policy learning, while not sacrificing generalization and expressiveness via
the large representation model. Finally,the effectiveness of the proposed
method is demonstrated by MountainCar,CarRacing and Cheetah experiments.
- Abstract(参考訳): 深部強化学習(DRL)は,従来の強化学習(RL)のボトルネックを突破し,ディープラーニングの知覚能力の助けとなり,実世界の問題に広く応用されてきたが,モデルフリーのRLは,効率的なDRL手法のクラスとして,大規模連続状態や行動空間に直面する場合のエンドツーエンドの学習と並行して,状態表現の学習を行う。
しかし、このような大規模なポリシーモデルのトレーニングには、多くの軌道サンプルとトレーニング時間が必要である。
一方、学習されたポリシーはしばしば大規模なアクション空間、特に連続的なアクション空間への一般化に失敗する。
この問題に対処するため,本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
より具体的には、状態表現の考え方をアクション表現に拡張し、より優れたポリシー一般化能力を実現する。
一方,学習タスク全体を教師なしの大規模表現モデルによる学習に分割し,小規模の政策モデルをrl方式で学習することで,大規模表現モデルによる一般化や表現性を犠牲にすることなく,政策学習を促進する。
最後に,提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
関連論文リスト
- Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Improving Generalization in Reinforcement Learning Training Regimes for
Social Robot Navigation [5.475804640008192]
カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。
本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2023-08-29T00:00:18Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - What Matters In On-Policy Reinforcement Learning? A Large-Scale
Empirical Study [50.79125250286453]
オンライン強化学習(RL)は、様々な連続制御タスクにうまく適用されている。
しかし、最先端の実装は、結果のエージェントのパフォーマンスに強く影響を与える、多数の低レベルかつ高レベルの設計決定を下します。
これらの選択は通常、文献で広く議論されることはなく、アルゴリズムの公開記述とそれらの実装の間に相違が生じている。
我々は,「50以上の選択肢」を統一型オンラインRLフレームワークに実装し,大規模な実証研究におけるその影響を調査する。
論文 参考訳(メタデータ) (2020-06-10T17:59:03Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。