論文の概要: Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and
Inverse Learning
- arxiv url: http://arxiv.org/abs/2304.00163v2
- Date: Fri, 8 Sep 2023 17:33:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 18:15:58.566655
- Title: Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and
Inverse Learning
- Title(参考訳): アフィンマルコフゲームにおけるソフトベルマン平衡--前方解と逆学習
- Authors: Shenghui Chen, Yue Yu, David Fridovich-Keil, Ufuk Topcu
- Abstract要約: 我々は、アフィン・マルコフゲームと呼ばれるマルコフゲームのクラスを定式化し、アフィン報酬関数はプレイヤーの行動と一致する。
我々は,各プレイヤーが有理的に有理であり,ソフト・ベルマンポリシーを選択するような,新しい解の概念,ソフト・ベルマン均衡を導入する。
そこで我々は,プロジェクテッド・グラディエント・アルゴリズムを用いて,観測された状態-行動軌跡からプレイヤーの報酬パラメータを推定する逆ゲーム問題を解く。
- 参考スコア(独自算出の注目度): 37.176741793213694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Markov games model interactions among multiple players in a stochastic,
dynamic environment. Each player in a Markov game maximizes its expected total
discounted reward, which depends upon the policies of the other players. We
formulate a class of Markov games, termed affine Markov games, where an affine
reward function couples the players' actions. We introduce a novel solution
concept, the soft-Bellman equilibrium, where each player is boundedly rational
and chooses a soft-Bellman policy rather than a purely rational policy as in
the well-known Nash equilibrium concept. We provide conditions for the
existence and uniqueness of the soft-Bellman equilibrium and propose a
nonlinear least-squares algorithm to compute such an equilibrium in the forward
problem. We then solve the inverse game problem of inferring the players'
reward parameters from observed state-action trajectories via a
projected-gradient algorithm. Experiments in a predator-prey OpenAI Gym
environment show that the reward parameters inferred by the proposed algorithm
outperform those inferred by a baseline algorithm: they reduce the
Kullback-Leibler divergence between the equilibrium policies and observed
policies by at least two orders of magnitude.
- Abstract(参考訳): マルコフゲームは確率的、動的環境における複数のプレイヤー間の相互作用をモデル化する。
マルコフゲームの各プレイヤーは、他のプレイヤーの方針に依存する、予想される総割引報酬を最大化する。
アフィン・マルコフゲーム(英: affine markov games)とは、アフィンの報酬関数がプレイヤーのアクションと結合するゲームである。
我々は,各プレイヤーが有界的に有理であり,ナッシュ均衡の概念と同様に純粋有理政策ではなくソフト・ベルマン政策を選択する,新しい解法であるソフト・ベルマン均衡を導入する。
ソフト・ベルマン平衡の存在と特異性に関する条件を提供し、前方問題におけるそのような平衡を計算する非線形最小二乗アルゴリズムを提案する。
次に, 予測勾配アルゴリズムを用いて, 観測された状態動作軌跡からプレイヤーの報酬パラメータを推測する逆ゲーム問題を解く。
捕食者によるOpenAI Gym環境における実験では,提案アルゴリズムが推定した報酬パラメータがベースラインアルゴリズムより優れており,平衡ポリシと観測ポリシとのKullback-Leiblerのばらつきを少なくとも2桁程度低減している。
関連論文リスト
- Convex Markov Games: A Framework for Fairness, Imitation, and Creativity in Multi-Agent Learning [31.958202912400925]
コンベックス・マルコフゲーム(英語版)のクラスを導入し、占有度よりも一般的なコンベックス・プレイスを可能にする。
無限の時間的地平線とマルコフゲームよりも厳密な一般性にもかかわらず、純粋な戦略 ナッシュ平衡は厳密な凸性の下で存在する。
我々の実験は、最後通しゲームにおける人間の選択を模倣し、繰り返しの囚人のジレンマに対する新しい解決策を明らかにし、反復的な非対称調整ゲームにおいて公正な解決策を見つける。
論文 参考訳(メタデータ) (2024-10-22T00:55:04Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Bayes correlated equilibria and no-regret dynamics [9.89901717499058]
本稿では,不完全情報を持つゲームの基本モデルであるベイズゲームに対する平衡概念について検討する。
我々は,各プレイヤーのプライベート情報を収集し,関連するレコメンデーションをプレイヤーに送信する仲介者によって実現可能なコミュニケーション均衡に焦点を当てる。
本稿では,非直交スワップ後悔を線形上界で最小化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-11T06:22:51Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Offline Learning in Markov Games with General Function Approximation [22.2472618685325]
マルコフゲームにおけるオフラインマルチエージェント強化学習(RL)について検討する。
マルコフゲームにおけるサンプル効率のよいオフライン学習のための最初のフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-06T05:22:27Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Efficiently Computing Nash Equilibria in Adversarial Team Markov Games [19.717850955051837]
我々は,同じプレイヤーが対戦相手と競合するゲームのクラスを紹介する。
この設定により、ゼロサムマルコフゲームの可能性ゲームの統一処理が可能になる。
我々の主な貢献は、対戦チームマルコフゲームにおける固定的な$epsilon$-approximate Nash平衡を計算するための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2022-08-03T16:41:01Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。