論文の概要: POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning
- arxiv url: http://arxiv.org/abs/2109.08642v2
- Date: Sat, 9 Dec 2023 08:13:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 03:56:35.987028
- Title: POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning
- Title(参考訳): POAR:オンライン抽象状態表現学習による効率的な政策最適化
- Authors: Zhaorun Chen, Siqi Fan, Yuan Tan, Liang Gong, Binhao Chen, Te Sun,
David Filliat, Natalia D\'iaz-Rodr\'iguez and Chengliang Liu
- Abstract要約: 状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
- 参考スコア(独自算出の注目度): 6.171331561029968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the rapid progress of deep learning fuels end-to-end reinforcement
learning (RL), direct application, especially in high-dimensional space like
robotic scenarios still suffers from low sample efficiency. Therefore State
Representation Learning (SRL) is proposed to specifically learn to encode
task-relevant features from complex sensory data into low-dimensional states.
However, the pervasive implementation of SRL is usually conducted by a
decoupling strategy in which the observation-state mapping is learned
separately, which is prone to over-fit. To handle such problem, we summarize
the state-of-the-art (SOTA) SRL sub-tasks in previous works and present a new
algorithm called Policy Optimization via Abstract Representation which
integrates SRL into the policy optimization phase. Firstly, We engage RL loss
to assist in updating SRL model so that the states can evolve to meet the
demand of RL and maintain a good physical interpretation. Secondly, we
introduce a dynamic loss weighting mechanism so that both models can
efficiently adapt to each other. Thirdly, we introduce a new SRL prior called
domain resemblance to leverage expert demonstration to improve SRL
interpretations. Finally, we provide a real-time access of state graph to
monitor the course of learning. Experiments indicate that POAR significantly
outperforms SOTA RL algorithms and decoupling SRL strategies in terms of sample
efficiency and final rewards. We empirically verify POAR to efficiently handle
tasks in high dimensions and facilitate training real-life robots directly from
scratch.
- Abstract(参考訳): ディープラーニングの急速な進歩は、エンドツーエンドの強化学習(RL)を助長するが、特にロボットシナリオのような高次元空間における直接的な応用は、サンプル効率の低下に悩まされている。
そのため、複雑な感覚データから低次元状態へのタスク関連特徴の符号化を特に学習するために、状態表現学習(SRL)を提案する。
しかし、SRLの広範な実装は通常、観測状態マッピングを別々に学習する分離戦略によって行われるため、過度に適合しがちである。
このような問題に対処するため,従来の作業におけるSRLサブタスクを要約し,SRLをポリシー最適化フェーズに統合した抽象表現によるポリシー最適化という新しいアルゴリズムを提案する。
まず、SRLモデルの更新を支援するためにRL損失に取り組み、RLの要求を満たすために状態が進化し、良好な物理的解釈を維持する。
次に,両モデルが互いに効率的に適応できるように,動的損失重み付け機構を導入する。
第3に、専門家によるSRL解釈を改善するために、ドメイン類似と呼ばれる新しいSRLを導入する。
最後に、学習過程を監視するために状態グラフのリアルタイムアクセスを提供する。
POARはサンプル効率と最終報酬の点でSOTA RLアルゴリズムとSRL戦略を著しく上回っている。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Data-Efficient Task Generalization via Probabilistic Model-based Meta
Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。
既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。
実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文 参考訳(メタデータ) (2023-11-13T18:51:57Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Heuristic-Guided Reinforcement Learning [31.056460162389783]
Tabula rasa RLアルゴリズムは、意思決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。
我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。
特に,従来の知識を超越してRLエージェントを外挿できる「改良可能な」新しい概念を導入する。
論文 参考訳(メタデータ) (2021-06-05T00:04:09Z) - Progressive extension of reinforcement learning action dimension for
asymmetric assembly tasks [7.4642148614421995]
本稿では,RLアルゴリズムの収束を最適化するために,行動次元の漸進的拡張(PEAD)機構を提案する。
結果は,pead法がrlアルゴリズムのデータ効率と時間効率を向上し,安定した報酬を得ることを示す。
論文 参考訳(メタデータ) (2021-04-06T11:48:54Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。