論文の概要: Continuously Discovering Novel Strategies via Reward-Switching Policy
Optimization
- arxiv url: http://arxiv.org/abs/2204.02246v1
- Date: Mon, 4 Apr 2022 12:38:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:03:14.244104
- Title: Continuously Discovering Novel Strategies via Reward-Switching Policy
Optimization
- Title(参考訳): Reward-Switching Policy Optimization による新しい戦略の連続的発見
- Authors: Zihan Zhou, Wei Fu, Bingliang Zhang, Yi Wu
- Abstract要約: Reward-Switching Policy Optimization (RSPO)
RSPOは、局所的に最適であり、既存のものと十分に異なる新しいポリシーを反復的に見つけることによって、複雑なRL環境における多様な戦略を発見するパラダイムである。
実験の結果、RSPOは単一エージェントの粒子世界タスクやMuJoCo連続制御からマルチエージェントのステージハントゲーム、StarCraftIIチャレンジまで、さまざまな領域で幅広い戦略を発見できることがわかった。
- 参考スコア(独自算出の注目度): 9.456388509414046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Reward-Switching Policy Optimization (RSPO), a paradigm to
discover diverse strategies in complex RL environments by iteratively finding
novel policies that are both locally optimal and sufficiently different from
existing ones. To encourage the learning policy to consistently converge
towards a previously undiscovered local optimum, RSPO switches between
extrinsic and intrinsic rewards via a trajectory-based novelty measurement
during the optimization process. When a sampled trajectory is sufficiently
distinct, RSPO performs standard policy optimization with extrinsic rewards.
For trajectories with high likelihood under existing policies, RSPO utilizes an
intrinsic diversity reward to promote exploration. Experiments show that RSPO
is able to discover a wide spectrum of strategies in a variety of domains,
ranging from single-agent particle-world tasks and MuJoCo continuous control to
multi-agent stag-hunt games and StarCraftII challenges.
- Abstract(参考訳): 提案手法は,局所的に最適かつ既存の手法と十分に異なる新しい方針を反復的に発見することにより,複雑なrl環境における多様な戦略を探索するパラダイムである。
学習方針が未発見の局所最適に向けて一貫して収束するよう促すため、RSPOは最適化プロセス中に軌道に基づく新規性測定によって外因性と内因性報酬を切り替える。
サンプル軌道が十分に異なる場合、RSPOは外因性報酬を伴う標準ポリシー最適化を行う。
既存の政策の下で高い可能性を持つ軌道に対しては、RSPOは固有の多様性報酬を利用して探索を促進する。
実験の結果、RSPOは単一エージェントの粒子世界タスクやMuJoCo連続制御からマルチエージェントのステージハントゲーム、StarCraftIIチャレンジまで、さまざまな領域で幅広い戦略を発見できることがわかった。
関連論文リスト
- OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Discovering Diverse Nearly Optimal Policies withSuccessor Features [30.144946007098852]
強化学習では、多様なポリシーの集合が探索、移動、階層化、堅牢性に有用である。
本稿では,継承的特徴の空間において多種多様であるポリシーを発見する方法として,多元的継承政策を提案する。
論文 参考訳(メタデータ) (2021-06-01T17:56:13Z) - Discovery of Options via Meta-Learned Subgoals [59.2160583043938]
オプションの形での時間的抽象化は、強化学習(RL)エージェントの学習の高速化に役立つことが示されている。
マルチタスクRL環境で有用なオプションを発見するための新しいメタグラデーションアプローチを紹介します。
論文 参考訳(メタデータ) (2021-02-12T19:50:40Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。