論文の概要: Aspiration-based Perturbed Learning Automata in Games with Noisy Utility Measurements. Part A: Stochastic Stability in Non-zero-Sum Games
- arxiv url: http://arxiv.org/abs/2511.11602v1
- Date: Fri, 31 Oct 2025 18:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-23 18:31:12.278459
- Title: Aspiration-based Perturbed Learning Automata in Games with Noisy Utility Measurements. Part A: Stochastic Stability in Non-zero-Sum Games
- Title(参考訳): 非ゼロサムゲームにおける確率的安定性
- Authors: Georgios C. Chasparis,
- Abstract要約: 本稿では,分散最適化のためのペイオフベース学習方式,すなわちアスピレーションベース学習オートマトン(APLA)を提案する。
雑音下での多人数能動ゲームにおけるAPLAの安定性解析を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement-based learning has attracted considerable attention both in modeling human behavior as well as in engineering, for designing measurement- or payoff-based optimization schemes. Such learning schemes exhibit several advantages, especially in relation to filtering out noisy observations. However, they may exhibit several limitations when applied in a distributed setup. In multi-player weakly-acyclic games, and when each player applies an independent copy of the learning dynamics, convergence to (usually desirable) pure Nash equilibria cannot be guaranteed. Prior work has only focused on a small class of games, namely potential and coordination games. To address this main limitation, this paper introduces a novel payoff-based learning scheme for distributed optimization, namely aspiration-based perturbed learning automata (APLA). In this class of dynamics, and contrary to standard reinforcement-based learning schemes, each player's probability distribution for selecting actions is reinforced both by repeated selection and an aspiration factor that captures the player's satisfaction level. We provide a stochastic stability analysis of APLA in multi-player positive-utility games under the presence of noisy observations. This is the first part of the paper that characterizes stochastic stability in generic non-zero-sum games by establishing equivalence of the induced infinite-dimensional Markov chain with a finite dimensional one. In the second part, stochastic stability is further specialized to weakly acyclic games.
- Abstract(参考訳): 強化に基づく学習は、人間の振る舞いと工学の両方をモデル化し、測定やペイオフに基づく最適化スキームを設計する上で大きな注目を集めている。
このような学習手法は、特に雑音の観測をフィルタリングすることに関して、いくつかの利点を示す。
しかし、分散セットアップで適用された場合、いくつかの制限がある可能性がある。
マルチプレイヤーゲームでは弱い非循環ゲームであり、各プレイヤーが学習力学の独立したコピーを適用すると、(通常は望ましい)純粋なナッシュ均衡への収束は保証されない。
それまでの作業は、ポテンシャルゲームとコーディネートゲームという、少数のゲームにのみ焦点を合わせてきた。
本稿では,この主な制限に対処するために,分散最適化のための新たなペイオフベース学習方式,すなわちアスピレーションベースの摂動学習自動化(APLA)を提案する。
このクラスのダイナミクスでは、標準的な強化に基づく学習方式とは対照的に、各プレイヤーの行動選択確率分布は、繰り返し選択とプレイヤーの満足度をキャプチャする吸引係数の両方によって強化される。
マルチプレイヤーポジティティーゲームにおいて,雑音下でのAPLAの確率的安定性解析を行う。
これは、有限次元のマルコフ連鎖と誘導無限次元の同値性を確立することによって、一般のゼロサムゲームにおける確率的安定性を特徴づける論文の最初の部分である。
第2部では、確率安定性は弱非巡回ゲームにさらに特化している。
関連論文リスト
- Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Independent and Decentralized Learning in Markov Potential Games [3.549868541921029]
マルチエージェント強化学習ダイナミクスについて検討し、無限水平割引マルコフポテンシャルゲームにおけるその挙動を解析する。
我々は、プレイヤーがゲームパラメータを知らない、コミュニケーションやコーディネートができない、独立的で分散的な設定に焦点を当てる。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。