論文の概要: A Mixture of Surprises for Unsupervised Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.06702v1
- Date: Thu, 13 Oct 2022 03:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 14:29:22.663750
- Title: A Mixture of Surprises for Unsupervised Reinforcement Learning
- Title(参考訳): 教師なし強化学習のための驚きの混合
- Authors: Andrew Zhao, Matthieu Gaetan Lin, Yangguang Li, Yong-Jin Liu, Gao
Huang
- Abstract要約: 教師なし強化学習は、下流タスクへの迅速な適応のために、報酬のない方法でジェネリストポリシーを学習することを目的としている。
本稿では,サプライズを同時に最大化し,最小化する目的を最適化する,非常にシンプルなポリシーの組み合わせを提案する。
提案手法は,URLBベンチマークにおける最先端性能を実現し,従来の純粋サプライズベース目標よりも優れていた。
- 参考スコア(独自算出の注目度): 40.66003595169329
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised reinforcement learning aims at learning a generalist policy in a
reward-free manner for fast adaptation to downstream tasks. Most of the
existing methods propose to provide an intrinsic reward based on surprise.
Maximizing or minimizing surprise drives the agent to either explore or gain
control over its environment. However, both strategies rely on a strong
assumption: the entropy of the environment's dynamics is either high or low.
This assumption may not always hold in real-world scenarios, where the entropy
of the environment's dynamics may be unknown. Hence, choosing between the two
objectives is a dilemma. We propose a novel yet simple mixture of policies to
address this concern, allowing us to optimize an objective that simultaneously
maximizes and minimizes the surprise. Concretely, we train one mixture
component whose objective is to maximize the surprise and another whose
objective is to minimize the surprise. Hence, our method does not make
assumptions about the entropy of the environment's dynamics. We call our method
a $\textbf{M}\text{ixture }\textbf{O}\text{f
}\textbf{S}\text{urprise}\textbf{S}$ (MOSS) for unsupervised reinforcement
learning. Experimental results show that our simple method achieves
state-of-the-art performance on the URLB benchmark, outperforming previous pure
surprise maximization-based objectives. Our code is available at:
https://github.com/LeapLabTHU/MOSS.
- Abstract(参考訳): 教師なし強化学習は、下流タスクへの迅速な適応のために、報酬のない方法で一般政策を学ぶことを目的としている。
既存の手法の多くは、驚きに基づく本質的な報酬を提供することを提案する。
驚きの最大化または最小化は、エージェントが環境を探索するか、制御するかを誘導する。
しかし、どちらの戦略も強い仮定に依存している:環境の力学のエントロピーは高いか低いかである。
この仮定は、環境のダイナミクスのエントロピーが未知であるような現実のシナリオに常に当てはまるとは限らない。
したがって、2つの目的を選択することはジレンマである。
この問題に対処する上で,我々は,同時にサプライズを最大化,最小化する目的を最適化する,非常にシンプルなポリシーの組み合わせを提案する。
具体的には、サプライズを最大化する目的の混合成分とサプライズを最小化する目的の混合成分を訓練する。
したがって,本手法は環境力学のエントロピーを仮定するものではない。
我々は、教師なし強化学習のために、我々のメソッドを $\textbf{M}\text{ixture }\textbf{O}\text{f }\textbf{S}\text{urprise}\textbf{S}$ (MOSS) と呼びます。
実験結果から,本手法はurlbベンチマークで最先端の性能を達成し,従来の純粋サプライズ最大化に基づく目標を上回った。
私たちのコードは、https://github.com/LeapLabTHU/MOSS.comで利用可能です。
関連論文リスト
- No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Expeditious Saliency-guided Mix-up through Random Gradient Thresholding [89.59134648542042]
混合学習アプローチはディープニューラルネットワークの一般化能力向上に有効であることが証明されている。
本稿では,両経路の分岐点に位置する新しい手法を提案する。
我々はR-Mixという手法を「Random Mix-up」という概念にちなむ。
より良い意思決定プロトコルが存在するかどうかという問題に対処するために、我々は、ミックスアップポリシーを決定する強化学習エージェントを訓練する。
論文 参考訳(メタデータ) (2022-12-09T14:29:57Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - LiMIIRL: Lightweight Multiple-Intent Inverse Reinforcement Learning [5.1779694507922835]
多目的逆強化学習は、異なる意図のデモンストレーションを合理化するために報酬関数のアンサンブルを見つけようとする。
特徴空間における実演の事前クラスタリングに基づくウォームスタート戦略を提案する。
また、一般的な期待値差尺度を一般化するMI-IRL性能指標を提案する。
論文 参考訳(メタデータ) (2021-06-03T12:00:38Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Learning One Representation to Optimize All Rewards [19.636676744015197]
我々は,報酬のないマルコフ決定プロセスのダイナミクスのフォワードバックワード(fb)表現を紹介する。
後尾に指定された報酬に対して、明確な準最適ポリシーを提供する。
これは任意のブラックボックス環境で制御可能なエージェントを学ぶためのステップです。
論文 参考訳(メタデータ) (2021-03-14T15:00:08Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。