論文の概要: Discovering Diverse Nearly Optimal Policies withSuccessor Features
- arxiv url: http://arxiv.org/abs/2106.00669v1
- Date: Tue, 1 Jun 2021 17:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:42:14.502010
- Title: Discovering Diverse Nearly Optimal Policies withSuccessor Features
- Title(参考訳): サクセス機能を有する多種多様な最適政策の発見
- Authors: Tom Zahavy, Brendan O'Donoghue, Andre Barreto, Volodymyr Mnih,
Sebastian Flennerhag and Satinder Singh
- Abstract要約: 強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
- 参考スコア(独自算出の注目度): 30.144946007098852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding different solutions to the same problem is a key aspect of
intelligence associated with creativity and adaptation to novel situations. In
reinforcement learning, a set of diverse policies can be useful for
exploration, transfer, hierarchy, and robustness. We propose Diverse Successive
Policies, a method for discovering policies that are diverse in the space of
Successor Features, while assuring that they are near optimal. We formalize the
problem as a Constrained Markov Decision Process (CMDP) where the goal is to
find policies that maximize diversity, characterized by an intrinsic diversity
reward, while remaining near-optimal with respect to the extrinsic reward of
the MDP. We also analyze how recently proposed robustness and discrimination
rewards perform and find that they are sensitive to the initialization of the
procedure and may converge to sub-optimal solutions. To alleviate this, we
propose new explicit diversity rewards that aim to minimize the correlation
between the Successor Features of the policies in the set. We compare the
different diversity mechanisms in the DeepMind Control Suite and find that the
type of explicit diversity we are proposing is important to discover distinct
behavior, like for example different locomotion patterns.
- Abstract(参考訳): 同じ問題に対する異なる解決策を見つけることは、創造性と新しい状況への適応に関連するインテリジェンスの重要な側面である。
強化学習では、様々なポリシーが探索、転送、階層化、堅牢性に有用である。
提案手法は,後継的特徴の空間において多様な方針を探索する手法であり,それらがほぼ最適であることを示すものである。
我々は,この問題をCMDP(Constrained Markov Decision Process)として定式化し,本質的な多様性報酬を特徴とする多様性を最大化する政策を見つけることを目的としている。
また,最近提案されたロバスト性および識別報酬がいかに機能するかを分析し,手続きの初期化に敏感であり,サブ最適解に収束する可能性を見出した。
そこで,本稿では,政策の後継的特徴の相関を最小限に抑えることを目的とした,新たな明示的な多様性報酬を提案する。
我々はDeepMind Control Suiteの異なる多様性メカニズムを比較し、提案している明示的な多様性のタイプが、例えば異なる移動パターンのような異なる振る舞いを発見するために重要であることを発見した。
関連論文リスト
- Iteratively Learn Diverse Strategies with State Distance Information [18.509323383456707]
複雑な強化学習問題では、同様の報酬を持つポリシーは、かなり異なる振る舞いを持つ可能性がある。
そこで本研究では, 多様性駆動型RLアルゴリズム, SIPO (State-based Intrinsic-Reward Policy Optimization) を開発した。
論文 参考訳(メタデータ) (2023-10-23T02:41:34Z) - Policy Diversity for Cooperative Agents [8.689289576285095]
マルチエージェント強化学習は、タスクを完了するための最適なチーム協調政策を見つけることを目的としている。
協調には複数の異なる方法があり、通常はドメインの専門家が非常に必要とします。
残念なことに、マルチエージェントドメイン用に特別に設計された効果的なポリシーの多様性アプローチが欠如している。
論文 参考訳(メタデータ) (2023-08-28T05:23:16Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization [34.40615558867965]
与えられたタスクを解決するための複数の戦略を探索するオンラインアルゴリズムを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
実験結果から,本手法は多種多様な強化学習課題における多様な戦略を効果的に発見できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T15:57:55Z) - Discovering Policies with DOMiNO: Diversity Optimization Maintaining
Near Optimality [26.69352834457256]
我々はこの問題を制約付きマルコフ決定過程として定式化する。
目的は、集合内の政策の国家占有率間の距離によって測定される多様な政策を見つけることである。
本手法は様々な領域において多様かつ有意義な振る舞いを発見できることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:40:52Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Selection-Expansion: A Unifying Framework for Motion-Planning and
Diversity Search Algorithms [69.87173070473717]
本稿では,2つの多様性探索アルゴリズム,ノベルティ探索アルゴリズムとゴール探索処理アルゴリズムの特性について検討する。
mpアルゴリズムとの関係は、ポリシーパラメータ空間と結果空間の間のマッピングの滑らかさ、あるいは滑らかさの欠如が検索効率において重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2021-04-10T13:52:27Z) - Novel Policy Seeking with Constrained Optimization [131.67409598529287]
本稿では,強化学習課題における新しい政策作成の問題を再考する。
まず、政策間の差異を評価するための新しい指標を導入し、2つの実用的な政策生成手法を設計する。
The Constrained Task Novel Bisector (CTNB) and the internal Policy Differentiation (IPD) is derived from the fiable direction method and the interior point method known in the constrained optimization literature。
論文 参考訳(メタデータ) (2020-05-21T14:39:14Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。