論文の概要: Multi-agent Bayesian Learning with Adaptive Strategies: Convergence and
Stability
- arxiv url: http://arxiv.org/abs/2010.09128v1
- Date: Sun, 18 Oct 2020 22:37:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 04:32:08.015748
- Title: Multi-agent Bayesian Learning with Adaptive Strategies: Convergence and
Stability
- Title(参考訳): 適応戦略を用いたマルチエージェントベイズ学習:収束と安定性
- Authors: Manxi Wu, Saurabh Amin, and Asuman Ozdaglar
- Abstract要約: 本研究では,未知のペイオフ関連パラメータで繰り返しゲームをする戦略エージェントが引き起こす学習ダイナミクスについて検討する。
信念と戦略が確率 1 の定点に収束することを証明する。
- 参考スコア(独自算出の注目度): 0.43012765978447565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study learning dynamics induced by strategic agents who repeatedly play a
game with an unknown payoff-relevant parameter. In each step, an information
system estimates a belief distribution of the parameter based on the players'
strategies and realized payoffs using Bayes' rule. Players adjust their
strategies by accounting for an equilibrium strategy or a best response
strategy based on the updated belief. We prove that beliefs and strategies
converge to a fixed point with probability 1. We also provide conditions that
guarantee local and global stability of fixed points. Any fixed point belief
consistently estimates the payoff distribution given the fixed point strategy
profile. However, convergence to a complete information Nash equilibrium is not
always guaranteed. We provide a sufficient and necessary condition under which
fixed point belief recovers the unknown parameter. We also provide a sufficient
condition for convergence to complete information equilibrium even when
parameter learning is incomplete.
- Abstract(参考訳): 本研究では,未知のペイオフ関連パラメータで繰り返しゲームをする戦略エージェントが引き起こす学習ダイナミクスについて検討する。
各ステップにおいて、情報システムはプレイヤーの戦略に基づいてパラメータの信念分布を推定し、ベイズのルールを用いてペイオフを実現する。
プレイヤーは、更新された信念に基づいて均衡戦略や最良の反応戦略を考慮し、戦略を調整する。
信念と戦略が確率 1 の固定点に収束することを証明する。
また,固定点の局所的および大域的安定性を保証する条件も提供する。
任意の固定点信念は、固定点戦略プロファイルが与えられた場合のペイオフ分布を常に推定する。
しかし、完全情報ナッシュ均衡への収束は必ずしも保証されない。
我々は、不動点信念が未知のパラメータを回復する十分かつ必要な条件を提供する。
また,パラメータ学習が不完全である場合でも,情報平衡を完全化するための収束条件も提供する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Automated Security Response through Online Learning with Adaptive Conjectures [13.33996350474556]
我々はITインフラに対する自動セキュリティ対応について研究する。
我々は攻撃者とディフェンダーとの相互作用を部分的に観察された非静止ゲームとして定式化する。
論文 参考訳(メタデータ) (2024-02-19T20:06:15Z) - The equivalence of dynamic and strategic stability under regularized
learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文 参考訳(メタデータ) (2023-11-04T14:07:33Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Survival of the strictest: Stable and unstable equilibria under
regularized learning with partial information [32.384868685390906]
一般Nプレイヤーゲームにおける非回帰学習のナッシュ平衡収束特性について検討する。
ナッシュ平衡の安定性と支持との包括的な等価性を確立します。
ゲームにおける非学習の日々の行動を予測するための明確な洗練基準を提供する。
論文 参考訳(メタデータ) (2021-01-12T18:55:11Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z) - Learning Strategies in Decentralized Matching Markets under Uncertain
Preferences [91.3755431537592]
エージェントの選好が不明な場合,共有資源の不足の設定における意思決定の問題について検討する。
我々のアプローチは、再生されたカーネルヒルベルト空間における好みの表現に基づいている。
エージェントの期待した利益を最大化する最適な戦略を導出する。
論文 参考訳(メタデータ) (2020-10-29T03:08:22Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。