論文の概要: Multi-agent learning under uncertainty: Recurrence vs. concentration
- arxiv url: http://arxiv.org/abs/2512.08132v1
- Date: Tue, 09 Dec 2025 00:18:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.766744
- Title: Multi-agent learning under uncertainty: Recurrence vs. concentration
- Title(参考訳): 不確実性下におけるマルチエージェント学習:再帰と集中
- Authors: Kyriakos Lotidis, Panayotis Mertikopoulos, Nicholas Bambos, Jose Blanchet,
- Abstract要約: 強い単調なゲームでは、正規化学習のダイナミクスが無限に平衡から遠ざかることが示される。
この濃度の度合いを定量化し、基礎となるゲームが強い単調でなければ、これらの好ましい性質はみな崩壊する可能性があることを示す。
- 参考スコア(独自算出の注目度): 25.372363445606265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we examine the convergence landscape of multi-agent learning under uncertainty. Specifically, we analyze two stochastic models of regularized learning in continuous games -- one in continuous and one in discrete time with the aim of characterizing the long-run behavior of the induced sequence of play. In stark contrast to deterministic, full-information models of learning (or models with a vanishing learning rate), we show that the resulting dynamics do not converge in general. In lieu of this, we ask instead which actions are played more often in the long run, and by how much. We show that, in strongly monotone games, the dynamics of regularized learning may wander away from equilibrium infinitely often, but they always return to its vicinity in finite time (which we estimate), and their long-run distribution is sharply concentrated around a neighborhood thereof. We quantify the degree of this concentration, and we show that these favorable properties may all break down if the underlying game is not strongly monotone -- underscoring in this way the limits of regularized learning in the presence of persistent randomness and uncertainty.
- Abstract(参考訳): 本稿では,不確実性下でのマルチエージェント学習の収束状況について検討する。
具体的には,連続ゲームにおける正規化学習の2つの確率的モデル(連続時間で1つ,離散時間で1つ)を分析する。
決定論的で完全な学習情報モデル(または消滅する学習率のモデル)とは対照的に、結果のダイナミクスは一般に収束しない。
その代わり、長期的にはどのアクションがより頻繁に実行されるか、どのくらいの頻度で尋ねる。
強い単調なゲームでは、正規化学習のダイナミクスは無限に平衡から遠ざかることがあるが、それらは常に有限時間(推定値)でその近辺に戻り、その近辺の長期分布は鋭く集中していることを示す。
この濃度の程度を定量化し、基礎となるゲームが強い単調でなければ、これらの好ましい性質がすべて崩壊する可能性があることを示す。
関連論文リスト
- Asymptotic Behavior of Random Time-Inhomogeneous Markovian Quantum Dynamics [0.0]
ランダム環境における連続時間・時間不均質マルコフ量子力学について検討する。
正規化された進化は、ほぼ確実にフルランク状態の定常族に収束する。
収束は、疾患に依存する可能性のある指数的な速度で起こる。
論文 参考訳(メタデータ) (2025-09-10T18:35:52Z) - The equivalence of dynamic and strategic stability under regularized
learning in games [33.74394172275373]
有限ゲームにおける正規化学習の長時間動作について検討する。
戦略的安定性と動的安定性の等価性を得る。
エントロピー正則化に基づく手法は幾何速度で収束することを示す。
論文 参考訳(メタデータ) (2023-11-04T14:07:33Z) - Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations [98.5802673062712]
我々は時間的に結合した摂動を導入し、既存の頑健な強化学習手法に挑戦する。
本稿では、時間的に結合したロバストなRL問題を部分的に観測可能な2プレイヤーゼロサムゲームとして扱う新しいゲーム理論であるGRADを提案する。
論文 参考訳(メタデータ) (2023-07-22T12:10:04Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Online Learning in Periodic Zero-Sum Games [27.510231246176033]
これらの力学系の複雑で非自律的な性質にもかかわらず、ポアンカーの再発は確実に一般化することを示す。
論文 参考訳(メタデータ) (2021-11-05T10:36:16Z) - Learning in nonatomic games, Part I: Finite action spaces and population
games [22.812059396480656]
非原子ゲームにおいて、離散時間と連続時間の両方で学習するための幅広いダイナミクスの長期的挙動について検討する。
有限作用空間を持つゲームにのみ焦点をあて、連続作用空間を持つ非原子ゲームは、この論文のパートIIで詳細に扱われる。
論文 参考訳(メタデータ) (2021-07-04T11:20:45Z) - Contrastive learning of strong-mixing continuous-time stochastic
processes [53.82893653745542]
コントラスト学習(Contrastive Learning)は、ラベルのないデータから構築された分類タスクを解決するためにモデルを訓練する自己指導型の手法のファミリーである。
拡散の場合,小~中距離間隔の遷移カーネルを適切に構築したコントラスト学習タスクを用いて推定できることが示される。
論文 参考訳(メタデータ) (2021-03-03T23:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。