論文の概要: Discovering Policies with DOMiNO: Diversity Optimization Maintaining
Near Optimality
- arxiv url: http://arxiv.org/abs/2205.13521v1
- Date: Thu, 26 May 2022 17:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 13:17:52.656291
- Title: Discovering Policies with DOMiNO: Diversity Optimization Maintaining
Near Optimality
- Title(参考訳): DOMiNOでポリシーを発見する: 最適に近い多様性の最適化
- Authors: Tom Zahavy, Yannick Schroecker, Feryal Behbahani, Kate Baumli,
Sebastian Flennerhag, Shaobo Hou and Satinder Singh
- Abstract要約: 我々はこの問題を制約付きマルコフ決定過程として定式化する。
目的は、集合内の政策の国家占有率間の距離によって測定される多様な政策を見つけることである。
本手法は様々な領域において多様かつ有意義な振る舞いを発見できることを示す。
- 参考スコア(独自算出の注目度): 26.69352834457256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding different solutions to the same problem is a key aspect of
intelligence associated with creativity and adaptation to novel situations. In
reinforcement learning, a set of diverse policies can be useful for
exploration, transfer, hierarchy, and robustness. We propose DOMiNO, a method
for Diversity Optimization Maintaining Near Optimality. We formalize the
problem as a Constrained Markov Decision Process where the objective is to find
diverse policies, measured by the distance between the state occupancies of the
policies in the set, while remaining near-optimal with respect to the extrinsic
reward. We demonstrate that the method can discover diverse and meaningful
behaviors in various domains, such as different locomotion patterns in the
DeepMind Control Suite. We perform extensive analysis of our approach, compare
it with other multi-objective baselines, demonstrate that we can control both
the quality and the diversity of the set via interpretable hyperparameters, and
show that the discovered set is robust to perturbations.
- Abstract(参考訳): 同じ問題に対する異なる解決策を見つけることは、創造性と新しい状況への適応に関連するインテリジェンスの重要な側面である。
強化学習では、様々なポリシーが探索、転送、階層化、堅牢性に有用である。
近似最適性を維持した多様性最適化手法であるdominoを提案する。
我々は,この問題を制約付きマルコフ決定プロセスとして定式化し,その目的は,集合内の政策の国家占有率間の距離で測定し,外因的な報酬に関してほぼ最適に維持することにある。
提案手法は,DeepMind Control Suiteの様々な移動パターンなど,様々な領域において多様かつ有意義な振る舞いを検出できることを示す。
我々のアプローチを広範囲に分析し、他の多目的ベースラインと比較し、解釈可能なハイパーパラメータを介して集合の品質と多様性の両方を制御できることを示し、発見された集合が摂動にロバストであることを示す。
関連論文リスト
- Testing for Fault Diversity in Reinforcement Learning [13.133263651395865]
ポリシテストは可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、モデルで可能な限り情報的かつ多様な障害を明らかにすることを目的としている、と私たちは主張する。
QDの最適化は概念的には単純であり、一般的に適用可能であるが、決定モデルにおいてより多様な欠点を効果的に発見できることが示される。
論文 参考訳(メタデータ) (2024-03-22T09:46:30Z) - Iteratively Learn Diverse Strategies with State Distance Information [18.509323383456707]
複雑な強化学習問題では、同様の報酬を持つポリシーは、かなり異なる振る舞いを持つ可能性がある。
そこで本研究では, 多様性駆動型RLアルゴリズム, SIPO (State-based Intrinsic-Reward Policy Optimization) を開発した。
論文 参考訳(メタデータ) (2023-10-23T02:41:34Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - A Unified Algorithm Framework for Unsupervised Discovery of Skills based
on Determinantal Point Process [53.86223883060367]
教師なしオプション発見における多様性とカバレッジは、実際には同じ数学的枠組みの下で統一可能であることを示す。
提案アルゴリズムであるODPPは,MujocoとAtariで作成した課題に対して,広範囲に評価されている。
論文 参考訳(メタデータ) (2022-12-01T01:40:03Z) - DGPO: Discovering Multiple Strategies with Diversity-Guided Policy
Optimization [34.40615558867965]
与えられたタスクを解決するための複数の戦略を探索するオンラインアルゴリズムを提案する。
以前の作業とは異なり、単一の実行でトレーニングされた共有ポリシネットワークでこれを実現する。
実験結果から,本手法は多種多様な強化学習課題における多様な戦略を効果的に発見できることが示唆された。
論文 参考訳(メタデータ) (2022-07-12T15:57:55Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Discovering Diverse Nearly Optimal Policies withSuccessor Features [30.144946007098852]
強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
論文 参考訳(メタデータ) (2021-06-01T17:56:13Z) - An Analysis of Phenotypic Diversity in Multi-Solution Optimization [118.97353274202749]
マルチモーダル最適化は高い適合性ソリューションを生み出し、品質の多様性は遺伝的中立性に敏感ではない。
オートエンコーダは表現型特徴を自動的に発見するために使用され、品質の多様性を備えたさらに多様なソリューションセットを生成する。
論文 参考訳(メタデータ) (2021-05-10T10:39:03Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。