論文の概要: Self-Supervised Policy Adaptation during Deployment
- arxiv url: http://arxiv.org/abs/2007.04309v3
- Date: Fri, 9 Apr 2021 02:47:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 09:54:37.291259
- Title: Self-Supervised Policy Adaptation during Deployment
- Title(参考訳): 展開中の自己監督型政策適応
- Authors: Nicklas Hansen, Rishabh Jangir, Yu Sun, Guillem Aleny\`a, Pieter
Abbeel, Alexei A. Efros, Lerrel Pinto, Xiaolong Wang
- Abstract要約: セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
- 参考スコア(独自算出の注目度): 98.25486842109936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most real world scenarios, a policy trained by reinforcement learning in
one environment needs to be deployed in another, potentially quite different
environment. However, generalization across different environments is known to
be hard. A natural solution would be to keep training after deployment in the
new environment, but this cannot be done if the new environment offers no
reward signal. Our work explores the use of self-supervision to allow the
policy to continue training after deployment without using any rewards. While
previous methods explicitly anticipate changes in the new environment, we
assume no prior knowledge of those changes yet still obtain significant
improvements. Empirical evaluations are performed on diverse simulation
environments from DeepMind Control suite and ViZDoom, as well as real robotic
manipulation tasks in continuously changing environments, taking observations
from an uncalibrated camera. Our method improves generalization in 31 out of 36
environments across various tasks and outperforms domain randomization on a
majority of environments.
- Abstract(参考訳): ほとんどの現実世界のシナリオでは、強化学習によって訓練されたポリシーを別の環境にデプロイする必要があります。
しかし、異なる環境にまたがる一般化は困難であることが知られている。
自然な解決策は、新しい環境にデプロイした後にトレーニングを続けることですが、新しい環境が報酬信号を提供しなければ、これはできません。
我々の研究は、報酬を使わずに、ポリシーがデプロイ後のトレーニングを継続できるようにするために、セルフスーパービジョンの使用を探求する。
従来の手法では, 新たな環境の変化を明示的に予測していたが, 事前の知識は得られていない。
実験的な評価は、DeepMind ControlスイートやViZDoomの様々なシミュレーション環境や、継続的に変化する環境における実際のロボット操作タスクで行われ、未調整のカメラから観察される。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - EvIL: Evolution Strategies for Generalisable Imitation Learning [33.745657379141676]
模倣学習(IL)の専門家によるデモンストレーションと、学習したポリシをデプロイしたい環境は、まったく同じではありません。
クローンのようなポリシー中心のアプローチと比較すると、逆強化学習(IRL)のような報酬中心のアプローチは、しばしば新しい環境における専門家の振る舞いをよりよく再現する。
最新のディープILアルゴリズムは、専門家よりもはるかに弱いポリシーを導出する報酬を頻繁に回収する。
本研究では,目標環境における再学習を高速化する報酬形成項を最適化する進化戦略に基づく新しい手法であるEvILを提案する。
論文 参考訳(メタデータ) (2024-06-15T22:46:39Z) - A Behavior-Aware Approach for Deep Reinforcement Learning in Non-stationary Environments without Known Change Points [30.077746056549678]
本研究では,環境変化検出と行動適応を融合させる革新的なフレームワークである行動認識検出適応(BADA)を紹介する。
我々の手法の背後にある重要なインスピレーションは、ポリシーが環境の変化に異なるグローバルな振る舞いを示すことである。
一連の実験の結果は、現在のアルゴリズムと比較して優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-23T06:17:26Z) - Improving adaptability to new environments and removing catastrophic
forgetting in Reinforcement Learning by using an eco-system of agents [3.5786621294068373]
強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。
破滅的な忘れ込みの危険性があり、これまで見られた環境のパフォーマンスが著しく妨げられている。
本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-04-13T17:52:54Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - EnvEdit: Environment Editing for Vision-and-Language Navigation [98.30038910061894]
Vision-and-Language Navigation (VLN)では、エージェントは自然言語命令に基づいて環境をナビゲートする必要がある。
本研究では,既存の環境を編集して新しい環境を作成するデータ拡張手法であるEnvEditを提案する。
提案手法は,事前学習および未学習のVLNエージェントにおいて,すべての指標において有意な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-03-29T15:44:32Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Fast Adaptation via Policy-Dynamics Value Functions [41.738462615120326]
本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミックス値関数(PD-VF)を紹介する。
PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。
提案手法は, MuJoCo ドメインの集合上で, 新たな動的処理に迅速に適応可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T16:47:56Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。