論文の概要: A Geometric Perspective on Self-Supervised Policy Adaptation
- arxiv url: http://arxiv.org/abs/2011.07318v1
- Date: Sat, 14 Nov 2020 15:16:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 13:20:48.669517
- Title: A Geometric Perspective on Self-Supervised Policy Adaptation
- Title(参考訳): 自己監督政策適応に関する幾何学的視点
- Authors: Cristian Bodnar, Karol Hausman, Gabriel Dulac-Arnold, Rico
Jonschkowski
- Abstract要約: 本稿では,現実世界の具体的特徴に類似した長期適応構成を提案する。
この適応プロセス中に埋め込み空間で発生する過程を実証的に記述する。
アクターベースおよびアクターフリーエージェントがターゲット環境にさらに一般化できることを示す。
- 参考スコア(独自算出の注目度): 19.0999190751611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most challenging aspects of real-world reinforcement learning (RL)
is the multitude of unpredictable and ever-changing distractions that could
divert an agent from what was tasked to do in its training environment. While
an agent could learn from reward signals to ignore them, the complexity of the
real-world can make rewards hard to acquire, or, at best, extremely sparse. A
recent class of self-supervised methods have shown promise that reward-free
adaptation under challenging distractions is possible. However, previous work
focused on a short one-episode adaptation setting. In this paper, we consider a
long-term adaptation setup that is more akin to the specifics of the real-world
and propose a geometric perspective on self-supervised adaptation. We
empirically describe the processes that take place in the embedding space
during this adaptation process, reveal some of its undesirable effects on
performance and show how they can be eliminated. Moreover, we theoretically
study how actor-based and actor-free agents can further generalise to the
target environment by manipulating the geometry of the manifolds described by
the actor and critic functions.
- Abstract(参考訳): 現実世界の強化学習(RL)の最も難しい側面の1つは、エージェントがトレーニング環境でやるべきことから逸脱する、予測不可能で絶えず変化する邪魔行為の多さである。
エージェントは報酬を無視するために報酬信号から学ぶことができるが、現実世界の複雑さは報酬を得るのを難しくする。
最近の自己監督手法のクラスでは、挑戦的な注意をそらすことなく報酬のない適応が可能であることが示されている。
しかし、以前の作品では短い1つの適応設定に焦点が当てられていた。
本稿では,実世界の具体化に類似した長期適応設定を考察し,自己教師付き適応に関する幾何学的視点を提案する。
この適応プロセス中に埋め込み空間で発生するプロセスを実証的に記述し、その好ましくない影響が性能に与える影響を明らかにし、その除去方法を示す。
さらに,アクタベースおよびアクタフリーエージェントが,アクタによって記述された多様体の幾何学と批判関数を操作することによって,さらにターゲット環境に一般化できるのかを理論的に検討する。
関連論文リスト
- Learning Complex Spatial Behaviours in ABM: An Experimental
Observational Study [0.0]
本稿では,創発的エージェント行動の生成にReinforcement Learningを適用する方法について検討する。
一連のシミュレーションを行ない, エージェントが実世界の知的適応行動の特性を示す方法として, プロクサマルポリシー最適化アルゴリズムを用いて訓練されたことを実証した。
論文 参考訳(メタデータ) (2022-01-04T11:56:11Z) - Extending Environments To Measure Self-Reflection In Reinforcement
Learning [0.0]
概念実証として機能する拡張環境のオープンソースライブラリをリリースする。
実験によって自己回帰が増大すると思われる単純な変換を例に紹介する。
論文 参考訳(メタデータ) (2021-10-13T17:22:27Z) - Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。
結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。
オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文 参考訳(メタデータ) (2021-07-27T13:30:07Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - On the Sensory Commutativity of Action Sequences for Embodied Agents [2.320417845168326]
群論の数学的形式論に基づくエンボディエージェントの知覚について検討する。
本稿では,エージェントの自由度が環境に与える影響を計測する感覚コミュニケーション確率基準を提案する。
本研究では,SCPと行動系列の可換性を用いて環境中の物体を学習する方法を実証的に説明する。
論文 参考訳(メタデータ) (2020-02-13T16:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。