論文の概要: Competitive Policy Optimization
- arxiv url: http://arxiv.org/abs/2006.10611v1
- Date: Thu, 18 Jun 2020 15:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:33:11.651057
- Title: Competitive Policy Optimization
- Title(参考訳): 競争政策最適化
- Authors: Manish Prajapat, Kamyar Azizzadenesheli, Alexander Liniger, Yisong
Yue, Anima Anandkumar
- Abstract要約: 本稿では,競争ゲームのゲーム理論的性質を利用してポリシー更新を導出する新しいポリシー勾配手法を提案する。
競合勾配最適化法により、ゲーム目標の双線形近似を導出する。
私たちは、包括的で、挑戦的で、競争的なゲームのセットで、彼らの振る舞いを経験的に調査します。
- 参考スコア(独自算出の注目度): 137.17299766844596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A core challenge in policy optimization in competitive Markov decision
processes is the design of efficient optimization methods with desirable
convergence and stability properties. To tackle this, we propose competitive
policy optimization (CoPO), a novel policy gradient approach that exploits the
game-theoretic nature of competitive games to derive policy updates. Motivated
by the competitive gradient optimization method, we derive a bilinear
approximation of the game objective. In contrast, off-the-shelf policy gradient
methods utilize only linear approximations, and hence do not capture
interactions among the players. We instantiate CoPO in two ways:(i) competitive
policy gradient, and (ii) trust-region competitive policy optimization. We
theoretically study these methods, and empirically investigate their behavior
on a set of comprehensive, yet challenging, competitive games. We observe that
they provide stable optimization, convergence to sophisticated strategies, and
higher scores when played against baseline policy gradient methods.
- Abstract(参考訳): 競争的マルコフ決定過程における政策最適化の核となる課題は、望ましい収束性と安定性を備えた効率的な最適化手法の設計である。
そこで本研究では,競争ゲームのゲーム理論的性質を活かし,政策更新を導出する新しい政策勾配手法である競争政策最適化(copo)を提案する。
競合勾配最適化法に動機づけられ,ゲーム目標の双線型近似を導出する。
対照的に、オフザシェルフポリシー勾配法は線形近似のみを利用するため、プレイヤー間の相互作用を捉えない。
私たちはCoPOを2つの方法でインスタンス化する。
(i)競争力のある政策勾配、
(ii)信頼地域競争政策の最適化。
我々は,これらの手法を理論的に研究し,包括的かつ挑戦的かつ競争的なゲーム上での行動について実証的に検討する。
基本方針勾配法に対して, 安定した最適化, 洗練された戦略への収束, 高いスコアを提供する。
関連論文リスト
- Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文 参考訳(メタデータ) (2023-05-11T14:50:20Z) - Best of Both Worlds in Online Control: Competitive Ratio and Policy
Regret [61.59646565655169]
我々は,最近提案されたオンライン制御アルゴリズムが,両世界のベストを達成していることを示す。
線形力学系が未知の場合には, 準線形後悔対最適競争政策が達成可能であると結論づける。
論文 参考訳(メタデータ) (2022-11-21T07:29:08Z) - On the convergence of policy gradient methods to Nash equilibria in
general stochastic games [33.786186304912]
ナッシュ均衡政策に関する政策勾配法の長期的挙動について検討する。
本稿では,REINFORCEアルゴリズムによって得られる勾配推定値を持つ政策勾配軌跡を$mathcalO (1/sqrtn)$ distance-squared convergence rate とする。
論文 参考訳(メタデータ) (2022-10-17T08:51:59Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。