論文の概要: PAnDR: Fast Adaptation to New Environments from Offline Experiences via
Decoupling Policy and Environment Representations
- arxiv url: http://arxiv.org/abs/2204.02877v1
- Date: Wed, 6 Apr 2022 14:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 13:04:01.801652
- Title: PAnDR: Fast Adaptation to New Environments from Offline Experiences via
Decoupling Policy and Environment Representations
- Title(参考訳): PAnDR:デカップリング政策と環境表現によるオフライン体験から新しい環境への迅速な適応
- Authors: Tong Sang, Hongyao Tang, Yi Ma, Jianye Hao, Yan Zheng, Zhaopeng Meng,
Boyan Li, Zhen Wang
- Abstract要約: 我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。
オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。
オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
- 参考スコア(独自算出の注目度): 39.11141327059819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has been a promising solution to many
complex decision-making problems. Nevertheless, the notorious weakness in
generalization among environments prevent widespread application of DRL agents
in real-world scenarios. Although advances have been made recently, most prior
works assume sufficient online interaction on training environments, which can
be costly in practical cases. To this end, we focus on an
\textit{offline-training-online-adaptation} setting, in which the agent first
learns from offline experiences collected in environments with different
dynamics and then performs online policy adaptation in environments with new
dynamics. In this paper, we propose Policy Adaptation with Decoupled
Representations (PAnDR) for fast policy adaptation. In offline training phase,
the environment representation and policy representation are learned through
contrastive learning and policy recovery, respectively. The representations are
further refined by mutual information optimization to make them more decoupled
and complete. With learned representations, a Policy-Dynamics Value Function
(PDVF) (Raileanu et al., 2020) network is trained to approximate the values for
different combinations of policies and environments. In online adaptation
phase, with the environment context inferred from few experiences collected in
new environments, the policy is optimized by gradient ascent with respect to
the PDVF. Our experiments show that PAnDR outperforms existing algorithms in
several representative policy adaptation problems.
- Abstract(参考訳): 深層強化学習(DRL)は多くの複雑な意思決定問題に対する有望な解決策である。
それでも、環境の一般化における悪名高い弱点は、現実世界のシナリオにおけるDRLエージェントの広範な適用を妨げる。
最近の進歩はあったが、ほとんどの先行研究はトレーニング環境における十分なオンラインインタラクションを前提としている。
そこで、エージェントはまず、異なるダイナミクスを持つ環境で収集されたオフライン体験から学習し、その後、新しいダイナミクスを持つ環境でオンラインポリシー適応を行う。
本稿では、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。
オフライン学習では、環境表現と政策表現は、それぞれ対照的な学習と政策回復を通じて学習される。
これらの表現は相互情報最適化によってさらに洗練され、より分離され完成される。
学習した表現を用いて、ポリシーと環境の異なる組み合わせの値を計算するために、ポリシー-ダイナミクス値関数(PDVF) (Raileanu et al., 2020) ネットワークを訓練する。
オンライン適応フェーズでは、新しい環境で収集された経験から環境コンテキストが推測されるため、PDVFに対する勾配上昇によってポリシーが最適化される。
実験の結果,PAnDRはいくつかの代表的な政策適応問題において,既存のアルゴリズムよりも優れていることがわかった。
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Hundreds Guide Millions: Adaptive Offline Reinforcement Learning with
Expert Guidance [74.31779732754697]
本稿では,GORL ( Guided Offline RL) という新しいプラグイン手法を提案する。
GORLは、いくつかの専門家によるデモンストレーションとともにガイドネットワークを使用し、各サンプルに対する政策改善と政策制約の相対的重要性を適応的に決定する。
様々な環境での実験により、GORLは統計的に有意な性能改善を伴い、ほとんどのオフラインRLアルゴリズムに容易にインストール可能であることが示唆された。
論文 参考訳(メタデータ) (2023-09-04T08:59:04Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - Fast Adaptation via Policy-Dynamics Value Functions [41.738462615120326]
本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミックス値関数(PD-VF)を紹介する。
PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。
提案手法は, MuJoCo ドメインの集合上で, 新たな動的処理に迅速に適応可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T16:47:56Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。