論文の概要: MBB: Model-Based Baseline for Global Guidance of Model-Free
Reinforcement Learning via Lower-Dimensional Solutions
- arxiv url: http://arxiv.org/abs/2011.02073v4
- Date: Sat, 23 Oct 2021 00:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:07:14.163928
- Title: MBB: Model-Based Baseline for Global Guidance of Model-Free
Reinforcement Learning via Lower-Dimensional Solutions
- Title(参考訳): mbb:低次元解によるモデルフリー強化学習のグローバルガイダンスのためのモデルベースライン
- Authors: Xubo Lyu, Site Li, Seth Siriya, Ye Pu, Mo Chen
- Abstract要約: ポストディム状態空間を用いた複雑なロボットタスクの解法を示す。
まず、問題のlo-dimバージョンに対するlo-dim値関数を計算する。
次に、ロディム値関数をベースライン関数として、モデルフリーRLプロセスのウォームスタートを行う。
- 参考スコア(独自算出の注目度): 8.6216807235051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One spectrum on which robotic control paradigms lie is the degree in which a
model of the environment is involved, from methods that are completely
model-free such as model-free RL, to methods that require a known model such as
optimal control, with other methods such as model-based RL somewhere in the
middle. On one end of the spectrum, model-free RL can learn control policies
for high-dimensional (hi-dim), complex robotic tasks through trial-and-error
without knowledge of a model of the environment, but tends to require a large
amount of data. On the other end, "classical methods" such as optimal control
generate solutions without collecting data, but assume that an accurate model
of the system and environment is known and are mostly limited to problems with
low-dimensional (lo-dim) state spaces. In this paper, we bring the two ends of
the spectrum together. Although models of hi-dim systems and environments may
not exist, lo-dim approximations of these systems and environments are widely
available, especially in robotics. Therefore, we propose to solve hi-dim,
complex robotic tasks in two stages. First, assuming a coarse model of the
hi-dim system, we compute a lo-dim value function for the lo-dim version of the
problem using classical methods (eg. value iteration and optimal control).
Then, the lo-dim value function is used as a baseline function to warm-start
the model-free RL process that learns hi-dim policies. The lo-dim value
function provides global guidance for model-free RL, alleviating the data
inefficiency of model-free RL. We demonstrate our approach on two robot
learning tasks with hi-dim state spaces and observe significant improvement in
policy performance and learning efficiency. We also give an empirical analysis
of our method with a third task.
- Abstract(参考訳): ロボット制御のパラダイムの1つのスペクトルは、モデルフリーrlのような完全にモデルフリーな手法から、最適制御のような既知のモデルを必要とする方法、そしてモデルベースのrlのような他の方法まで、環境のモデルが関与する度合いである。
モデルのないRLは、環境のモデルを知ることなく、試行錯誤によって高次元(ハイディム)複雑なロボットタスクの制御ポリシーを学ぶことができるが、大量のデータを必要とする傾向がある。
一方、最適制御のような「古典的手法」は、データを集めることなく解を生成するが、システムと環境の正確なモデルが知られ、主に低次元(lo-dim)状態空間の問題に限定されていると仮定する。
本稿では、スペクトルの2つの端をまとめる。
ハイディムシステムと環境のモデルは存在しないかもしれないが、特にロボット工学において、これらのシステムと環境のlo-dim近似が広く利用可能である。
そこで本研究では,2段階の複雑なロボット課題を解決することを提案する。
まず,ハイディムシステムの粗いモデルを仮定して,古典的な手法(値反復や最適制御など)を用いて問題のlo-dimバージョンに対するlo-dim値関数を計算する。
次に、ロディム値関数をベースライン関数として使用し、ハイディムポリシーを学ぶモデルフリーなRLプロセスのウォームスタートを行う。
lo-dim値関数は、モデルフリーrlのデータ非効率を緩和するモデルフリーrlのグローバルガイダンスを提供する。
我々は,ハイダイム状態空間を持つ2つのロボット学習タスクに対するアプローチを実証し,政策性能と学習効率の大幅な改善を観察する。
また,第3の課題により,提案手法を実証的に分析した。
関連論文リスト
- Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline [47.16115174891401]
本稿では,この分散問題を緩和するために,最適な行動依存ベースライン (Off-OAB) を用いた非政治政策勾配法を提案する。
提案手法は,OpenAI Gym と MuJoCo の6つの代表タスクに対して提案手法を評価する。
論文 参考訳(メタデータ) (2024-05-04T05:21:28Z) - Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Gradient for Reinforcement Learning with General Utilities [50.65940899590487]
強化学習(Reinforcement Learning, RL)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。
教師なしと教師なしのRL問題の多くは、LLフレームワークには含まれていない。
一般ユーティリティによるRLのポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2022-10-03T14:57:46Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Improving Actor-Critic Reinforcement Learning via Hamiltonian Policy [11.34520632697191]
強化学習(RL)における最適なポリシーの近似は、多くの現実のシナリオでしばしば必要です。
本研究は,ハミルトニアン・モンテカルロ (HMC) を VI で使用したことに触発されて,政策最適化を HMC と統合することを提案する。
提案手法は,従来のポリシー最適化手法よりもデータ効率が良く,実装が容易であることを示す。
論文 参考訳(メタデータ) (2021-03-22T17:26:43Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。