論文の概要: Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning
Algorithms
- arxiv url: http://arxiv.org/abs/2109.12286v1
- Date: Sat, 25 Sep 2021 06:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:24:24.570058
- Title: Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning
Algorithms
- Title(参考訳): Stackelberg Actor-Critic: ゲーム理論強化学習アルゴリズム
- Authors: Liyuan Zheng, Tanner Fiez, Zane Alumbaugh, Benjamin Chasnov and
Lillian J. Ratliff
- Abstract要約: アクター批判に基づく強化学習アルゴリズムにおけるアクターと批評家の階層的相互作用は、ゲーム理論の解釈に自然に結びつく。
そこで我々は,従来の個人勾配ではなく,その目的の全体微分をリーダプレイヤーが追従する,Stackelbergアクタ批判アルゴリズムのメタフレームワークを提案する。
OpenAIのジム環境での実験では、Stackelbergのアクター批判アルゴリズムは常に、少なくとも同じようにパフォーマンスし、標準的なアクター批判アルゴリズムよりもはるかに優れていることが示されている。
- 参考スコア(独自算出の注目度): 13.649494534428745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hierarchical interaction between the actor and critic in actor-critic
based reinforcement learning algorithms naturally lends itself to a
game-theoretic interpretation. We adopt this viewpoint and model the actor and
critic interaction as a two-player general-sum game with a leader-follower
structure known as a Stackelberg game. Given this abstraction, we propose a
meta-framework for Stackelberg actor-critic algorithms where the leader player
follows the total derivative of its objective instead of the usual individual
gradient. From a theoretical standpoint, we develop a policy gradient theorem
for the refined update and provide a local convergence guarantee for the
Stackelberg actor-critic algorithms to a local Stackelberg equilibrium. From an
empirical standpoint, we demonstrate via simple examples that the learning
dynamics we study mitigate cycling and accelerate convergence compared to the
usual gradient dynamics given cost structures induced by actor-critic
formulations. Finally, extensive experiments on OpenAI gym environments show
that Stackelberg actor-critic algorithms always perform at least as well and
often significantly outperform the standard actor-critic algorithm
counterparts.
- Abstract(参考訳): アクター批判に基づく強化学習アルゴリズムにおけるアクターと批評家の階層的相互作用は、ゲーム理論の解釈に自然に結びつく。
我々はこの視点を採用し、スタックルバーグゲームとして知られるリーダー・フォロワー構造を持つ2人プレイの汎用ゲームとしてアクターと批評家の相互作用をモデル化する。
この抽象化を前提として,従来の個人勾配ではなく,リーダプレーヤが目的の全体微分に従う,Stackelbergアクタ批判アルゴリズムのメタフレームワークを提案する。
理論的観点からは,改良された更新に対するポリシー勾配定理を開発し,局所的スタックルバーグ平衡に対するスタックルバーグ・アクタ-クリティックアルゴリズムの局所収束保証を提供する。
経験的観点から,我々は,アクタ-クリティックな定式化によって引き起こされるコスト構造が与えられた場合の通常の勾配ダイナミクスと比較して,サイクリングを緩和し,収束を加速する学習ダイナミクスを簡単な例で示す。
最後に、OpenAIのジム環境に関する広範な実験により、Stackelbergのアクター批判アルゴリズムは、常に少なくとも同じようにパフォーマンスし、標準アクター批判アルゴリズムよりもはるかに優れていることが示されている。
関連論文リスト
- Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - Analysis of a Target-Based Actor-Critic Algorithm with Linear Function
Approximation [2.1592777170316366]
ターゲットネットワークを統合するアクター・クリティカルな手法は、深層強化学習において頑強な経験的成功を示している。
割引報酬設定において線形関数近似を用いたオンラインターゲットベースアクター批判の最初の理論的解析を行うことにより、このギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-06-14T14:59:05Z) - Adversarial Training as Stackelberg Game: An Unrolled Optimization
Approach [91.74682538906691]
逆行訓練はディープラーニングモデルの一般化性能を向上させることが示されている。
Stackelbergゲームとして, 対人トレーニングを定式化するStackelberg Adversarial Training (SALT)を提案する。
論文 参考訳(メタデータ) (2021-04-11T00:44:57Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - A Finite Time Analysis of Two Time-Scale Actor Critic Methods [87.69128666220016]
我々は,2つの時間スケールのアクター批判的手法に対する非漸近的解析を行う。
本研究では,アクター批判法が一階定常点を見つけることが保証されていることを証明した。
有限時間解析とサンプルの複雑さを2つの時間スケールアクター批判的手法に限定した最初の作品である。
論文 参考訳(メタデータ) (2020-05-04T09:45:18Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Rethinking Few-Shot Image Classification: a Good Embedding Is All You
Need? [72.00712736992618]
メタトレーニングセット上で教師付きあるいは自己教師型表現を学習する単純なベースラインが、最先端の数ショット学習方法より優れていることを示す。
追加の増量は自己蒸留によって達成できる。
我々は,この発見が,画像分類ベンチマークとメタ学習アルゴリズムの役割を再考する動機となっていると考えている。
論文 参考訳(メタデータ) (2020-03-25T17:58:42Z) - Follow the Neurally-Perturbed Leader for Adversarial Training [0.0]
摂動のない振る舞いを伴わない混合平衡に対するゼロサム学習のための新しいリーダーアルゴリズムを提案する。
我々は, この学習アルゴリズムを, 凸や乱れを伴わないゲームや, 生成的対角構造に応用することにより, 理論的結果を検証した。
逆模倣学習アプリケーションのためのアルゴリズムの実装をカスタマイズする。
論文 参考訳(メタデータ) (2020-02-16T00:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。