論文の概要: Unsupervised Reinforcement Learning in Multiple Environments
- arxiv url: http://arxiv.org/abs/2112.08746v1
- Date: Thu, 16 Dec 2021 09:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:45:36.197007
- Title: Unsupervised Reinforcement Learning in Multiple Environments
- Title(参考訳): 複数の環境における教師なし強化学習
- Authors: Mirco Mutti, Mattia Mancassola, Marcello Restelli
- Abstract要約: 複数の環境のクラスにおける教師なし強化学習の課題に対処する。
本稿では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$alpha$MEPOLを提案する。
事前学習した探索戦略から,強化学習が大きなメリットがあることが示唆された。
- 参考スコア(独自算出の注目度): 37.5349071806395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several recent works have been dedicated to unsupervised reinforcement
learning in a single environment, in which a policy is first pre-trained with
unsupervised interactions, and then fine-tuned towards the optimal policy for
several downstream supervised tasks defined over the same environment. Along
this line, we address the problem of unsupervised reinforcement learning in a
class of multiple environments, in which the policy is pre-trained with
interactions from the whole class, and then fine-tuned for several tasks in any
environment of the class. Notably, the problem is inherently multi-objective as
we can trade off the pre-training objective between environments in many ways.
In this work, we foster an exploration strategy that is sensitive to the most
adverse cases within the class. Hence, we cast the exploration problem as the
maximization of the mean of a critical percentile of the state visitation
entropy induced by the exploration strategy over the class of environments.
Then, we present a policy gradient algorithm, $\alpha$MEPOL, to optimize the
introduced objective through mediated interactions with the class. Finally, we
empirically demonstrate the ability of the algorithm in learning to explore
challenging classes of continuous environments and we show that reinforcement
learning greatly benefits from the pre-trained exploration strategy w.r.t.
learning from scratch.
- Abstract(参考訳): いくつかの最近の研究は、教師なし強化学習に特化しており、まずは教師なしの相互作用で事前訓練され、その後、同じ環境上で定義された複数の下流教師付きタスクに対する最適なポリシーに向けて微調整される。
この線に沿って、複数の環境のクラスにおける教師なし強化学習の問題に対処し、クラス全体のインタラクションによってポリシーを事前訓練し、クラス内の任意の環境においていくつかのタスクを微調整する。
特に、問題は本質的に多目的であり、多くの方法で環境間で事前訓練対象をトレードオフできる。
本研究では,クラス内の最も有害な事例に敏感な探索戦略を育成する。
そこで我々は,調査問題を,環境のクラスにわたる探索戦略によって引き起こされる国家訪問エントロピーの臨界パーセンタイルの平均値の最大化とみなした。
そこで本研究では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$\alpha$MEPOLを提案する。
最後に, 学習におけるアルゴリズムの学習能力を実証的に実証し, 学習をスクラッチから学習する事前訓練された探索戦略から, 強化学習が大きな恩恵を受けることを示す。
関連論文リスト
- Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes [15.50007257943931]
本稿では,この制限に対処するために,本質的な2相強化学習法を提案する。
提案手法は, 動的ロボット環境において, 最先端の多目的強化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T02:10:45Z) - Open-World Multi-Task Control Through Goal-Aware Representation Learning
and Adaptive Horizon Prediction [29.32859058651654]
本研究では,マインクラフトにおける目標条件付き政策の学習問題について考察する。
まず,このような政策を学習する上での課題として,1)大きなシーンの多様性によるタスクの分散性,2)部分観測性に起因する環境力学の非定常性,の2つを挙げる。
本稿では,目標関連視覚状態表現の出現を促す政策として,目標感性バックボーン(GSB)を提案する。
論文 参考訳(メタデータ) (2023-01-21T08:15:38Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Stay Alive with Many Options: A Reinforcement Learning Approach for
Autonomous Navigation [5.811502603310248]
我々は、階層的な政策を使わずに、このようなスキルを逐次学習するための代替手法を導入する。
構築したシミュレーション3次元ナビゲーション環境において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-01-30T06:55:35Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。