論文の概要: Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning
Algorithms
- arxiv url: http://arxiv.org/abs/2109.12286v1
- Date: Sat, 25 Sep 2021 06:18:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:24:24.570058
- Title: Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning
Algorithms
- Title(参考訳): Stackelberg Actor-Critic: ゲーム理論強化学習アルゴリズム
- Authors: Liyuan Zheng, Tanner Fiez, Zane Alumbaugh, Benjamin Chasnov and
Lillian J. Ratliff
- Abstract要約: アクター批判に基づく強化学習アルゴリズムにおけるアクターと批評家の階層的相互作用は、ゲーム理論の解釈に自然に結びつく。
そこで我々は,従来の個人勾配ではなく,その目的の全体微分をリーダプレイヤーが追従する,Stackelbergアクタ批判アルゴリズムのメタフレームワークを提案する。
OpenAIのジム環境での実験では、Stackelbergのアクター批判アルゴリズムは常に、少なくとも同じようにパフォーマンスし、標準的なアクター批判アルゴリズムよりもはるかに優れていることが示されている。
- 参考スコア(独自算出の注目度): 13.649494534428745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The hierarchical interaction between the actor and critic in actor-critic
based reinforcement learning algorithms naturally lends itself to a
game-theoretic interpretation. We adopt this viewpoint and model the actor and
critic interaction as a two-player general-sum game with a leader-follower
structure known as a Stackelberg game. Given this abstraction, we propose a
meta-framework for Stackelberg actor-critic algorithms where the leader player
follows the total derivative of its objective instead of the usual individual
gradient. From a theoretical standpoint, we develop a policy gradient theorem
for the refined update and provide a local convergence guarantee for the
Stackelberg actor-critic algorithms to a local Stackelberg equilibrium. From an
empirical standpoint, we demonstrate via simple examples that the learning
dynamics we study mitigate cycling and accelerate convergence compared to the
usual gradient dynamics given cost structures induced by actor-critic
formulations. Finally, extensive experiments on OpenAI gym environments show
that Stackelberg actor-critic algorithms always perform at least as well and
often significantly outperform the standard actor-critic algorithm
counterparts.
- Abstract(参考訳): アクター批判に基づく強化学習アルゴリズムにおけるアクターと批評家の階層的相互作用は、ゲーム理論の解釈に自然に結びつく。
我々はこの視点を採用し、スタックルバーグゲームとして知られるリーダー・フォロワー構造を持つ2人プレイの汎用ゲームとしてアクターと批評家の相互作用をモデル化する。
この抽象化を前提として,従来の個人勾配ではなく,リーダプレーヤが目的の全体微分に従う,Stackelbergアクタ批判アルゴリズムのメタフレームワークを提案する。
理論的観点からは,改良された更新に対するポリシー勾配定理を開発し,局所的スタックルバーグ平衡に対するスタックルバーグ・アクタ-クリティックアルゴリズムの局所収束保証を提供する。
経験的観点から,我々は,アクタ-クリティックな定式化によって引き起こされるコスト構造が与えられた場合の通常の勾配ダイナミクスと比較して,サイクリングを緩和し,収束を加速する学習ダイナミクスを簡単な例で示す。
最後に、OpenAIのジム環境に関する広範な実験により、Stackelbergのアクター批判アルゴリズムは、常に少なくとも同じようにパフォーマンスし、標準アクター批判アルゴリズムよりもはるかに優れていることが示されている。
関連論文リスト
- Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - Decision-Aware Actor-Critic with Function Approximation and Theoretical
Guarantees [12.259191000019033]
アクター・クリティック(AC)法は強化学習(RL)に広く用いられている
我々は、俳優と批評家を意思決定で訓練するための共同目標を設計する。
簡単なRL問題に対する意思決定対応型アクター批判フレームワークの利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-24T15:34:21Z) - Follower Agnostic Methods for Stackelberg Games [14.143502615941648]
我々は,複数のフォロワーを対象とするオンラインStackelbergゲームにおいて,フォロワーに依存しない方法で効率よく解決するアルゴリズムを提案する。
私たちのアプローチは、リーダがフォロワーのユーティリティ機能や戦略空間について知識を持っていない場合でも機能します。
論文 参考訳(メタデータ) (2023-02-02T21:21:14Z) - Differentiable Bilevel Programming for Stackelberg Congestion Games [47.60156422249365]
Stackelberg Congestion Game (SCG) において、リーダーは、群集が集まる平衡状態を予測し、操作することで、自身の利益を最大化することを目的としている。
本稿では,従来の手法と機械学習における最新の微分可能プログラミング技術を組み合わせることで,この計算課題に挑戦する。
本稿では,SCGの局所探索アルゴリズムを2つ提案する。第1に,微分可能プログラミングを用いてILDをアンロールすることで導関数を求める勾配降下アルゴリズムを提案する。
第二のアルゴリズムは、フォロワーの進化軌道を短くすることでツイストを加える。
論文 参考訳(メタデータ) (2022-09-15T21:32:23Z) - Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。
我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2022-08-19T15:49:30Z) - Analysis of a Target-Based Actor-Critic Algorithm with Linear Function
Approximation [2.1592777170316366]
ターゲットネットワークを統合するアクター・クリティカルな手法は、深層強化学習において頑強な経験的成功を示している。
割引報酬設定において線形関数近似を用いたオンラインターゲットベースアクター批判の最初の理論的解析を行うことにより、このギャップを橋渡しする。
論文 参考訳(メタデータ) (2021-06-14T14:59:05Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - A Deeper Look at Discounting Mismatch in Actor-Critic Algorithms [81.01917016753644]
本稿では,表現学習の観点からアクタ・クリティカルなアルゴリズムの実装における割引ミスマッチについて検討する。
理論的には、アクター批判アルゴリズムは通常、アクターと批評家の両方に対して割引される。
しかし、専門家は通常、ディスカウントされた批評家を使用しながら、俳優の割引(ガンマt$)を無視する。
論文 参考訳(メタデータ) (2020-10-02T15:51:48Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Follow the Neurally-Perturbed Leader for Adversarial Training [0.0]
摂動のない振る舞いを伴わない混合平衡に対するゼロサム学習のための新しいリーダーアルゴリズムを提案する。
我々は, この学習アルゴリズムを, 凸や乱れを伴わないゲームや, 生成的対角構造に応用することにより, 理論的結果を検証した。
逆模倣学習アプリケーションのためのアルゴリズムの実装をカスタマイズする。
論文 参考訳(メタデータ) (2020-02-16T00:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。