論文の概要: Provably Efficient Model-based Policy Adaptation
- arxiv url: http://arxiv.org/abs/2006.08051v1
- Date: Sun, 14 Jun 2020 23:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 10:09:27.468483
- Title: Provably Efficient Model-based Policy Adaptation
- Title(参考訳): 効率的なモデルベースポリシー適応
- Authors: Yuda Song, Aditi Mavalankar, Wen Sun, Sicun Gao
- Abstract要約: 有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
- 参考スコア(独自算出の注目度): 22.752774605277555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high sample complexity of reinforcement learning challenges its use in
practice. A promising approach is to quickly adapt pre-trained policies to new
environments. Existing methods for this policy adaptation problem typically
rely on domain randomization and meta-learning, by sampling from some
distribution of target environments during pre-training, and thus face
difficulty on out-of-distribution target environments. We propose new
model-based mechanisms that are able to make online adaptation in unseen target
environments, by combining ideas from no-regret online learning and adaptive
control. We prove that the approach learns policies in the target environment
that can quickly recover trajectories from the source environment, and
establish the rate of convergence in general settings. We demonstrate the
benefits of our approach for policy adaptation in a diverse set of continuous
control tasks, achieving the performance of state-of-the-art methods with much
lower sample complexity.
- Abstract(参考訳): 強化学習の高サンプル複雑さは、その実践に挑戦している。
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
このポリシー適応問題に対する既存の方法は、通常、事前訓練中のターゲット環境のいくつかの分布からサンプリングすることで、ドメインのランダム化とメタラーニングに依存している。
我々は,未学習のオンライン学習と適応制御のアイデアを組み合わせることで,未確認のターゲット環境におけるオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
提案手法は, 対象環境の方針を学習し, ソース環境からの軌道を迅速に回収し, 一般設定での収束率を確立することを実証する。
我々は,様々な連続制御タスクにおけるポリシー適応手法の利点を実証し,サンプル複雑性をはるかに低減した最先端手法の性能を実現する。
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - PAnDR: Fast Adaptation to New Environments from Offline Experiences via
Decoupling Policy and Environment Representations [39.11141327059819]
我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。
オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。
オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
論文 参考訳(メタデータ) (2022-04-06T14:47:35Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。