論文の概要: Equilibrium Selection in Multi-Agent Policy Gradients via Opponent-Aware Basin Entry
- arxiv url: http://arxiv.org/abs/2605.18078v1
- Date: Mon, 18 May 2026 08:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.208606
- Title: Equilibrium Selection in Multi-Agent Policy Gradients via Opponent-Aware Basin Entry
- Title(参考訳): 対向型盆地導入によるマルチエージェント政策グラディエントの平衡選択
- Authors: Yevhen Shcherbinin, Arina Redina, Maxim Kalpin, Vlad Kochetov,
- Abstract要約: 本研究では,外部基準により選択された平衡の目標集合について,盆地突入確率について検討する。
有限アンロールメタMAPGでは、この更新が通常の方針勾配と自己学習とピアラーニングの補正に分解されることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent policy-gradient methods have been shown to converge locally near stable Nash equilibria. Local convergence, however, does not determine which equilibrium is reached. We study this question through basin-entry probability with respect to a target set of equilibria selected by an external criterion, such as payoff dominance. For finite-unroll Meta-MAPG, we show that the update decomposes into ordinary policy gradient plus own-learning and peer-learning corrections, with controlled sampling noise and finite-unroll bias. We identify the peer-learning correction as the main equilibrium-selection mechanism: under a local alignment condition, the probability of entering the certified attraction region of the target stable-Nash set increases, relative to ordinary policy gradient. Because persistent correction may shift zero-update points of the original game, annealing the correction after entering the basin recovers ordinary policy-gradient dynamics and inherits local stable-Nash convergence guarantees. Experiments in Stag Hunt, iterated Prisoner's Dilemma, and preliminary neural-policy coordination environments support this basin-entry view, showing increased entry into cooperative basins under peer-aware updates.
- Abstract(参考訳): 多エージェントポリシー勾配法は、安定なナッシュ平衡の近くで局所的に収束することが示されている。
しかし、局所収束はどの平衡に達するかを決定するものではない。
本研究では, 配当支配などの外部基準によって選択された平衡の目標集合に対して, 盆地内確率を用いてこの問題を考察する。
有限アンロールメタMAPGの場合、この更新は通常の方針勾配と自己学習とピアラーニングの補正に分解され、サンプリングノイズと有限アンロールバイアスが制御される。
局所的なアライメント条件下では、目標安定ナッシュセットのアトラクション領域に入る確率は、通常の政策勾配と比較して増加する。
永続的な補正は元のゲームのゼロ更新点をシフトさせる可能性があるため、盆地に入った後の補正は通常の方針勾配のダイナミクスを回復し、局所安定ナッシュ収束保証を継承する。
スタッグハント、反復された囚人のジレンマ、予備的なニューラル・ポリティクスの調整環境は、この盆地の景観を支持し、ピア・アウェア・アップデートの下での協力的な盆地への侵入の増加を示す。
関連論文リスト
- GRASP: Gradient Realignment via Active Shared Perception for Multi-Agent Collaborative Optimization [41.52202306408042]
非定常性は、同時ポリシー更新によって発生し、持続的な環境変動を引き起こす。
本稿では,一般ベルマン均衡を政策進化の安定目標として定義する新しい枠組みである,アクティブ共有知覚(GRASP)によるRealignmentを提案する。
論文 参考訳(メタデータ) (2026-04-01T10:26:22Z) - Asymmetric regularization mechanism for GAN training with Variational Inequalities [1.529943343419486]
我々は,GANの学習をナッシュ均衡問題として定式化する。
古典的チホノフステップと新しいゼロ中心勾配ペナルティに基づく非対称正則化機構を提案する。
論文 参考訳(メタデータ) (2026-01-20T12:50:18Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - Nash Policy Gradient: A Policy Gradient Method with Iteratively Refined Regularization for Finding Nash Equilibria [27.756691720415798]
我々は,不完全情報ゲームにおけるナッシュ平衡を求めるための実用的なアルゴリズムを開発した。
ナッシュポリシーグラディエント (Nash Policy Gradient, NashPG) は、従来のベンチマークゲームにおけるモデルフリーメソッドと同等または低いエクスプロイト性を達成している。
論文 参考訳(メタデータ) (2025-10-21T00:14:45Z) - Towards Optimal Offline Reinforcement Learning [9.13232872223434]
本研究では,長期平均報酬目標を用いたオフライン強化学習問題について検討する。
任意の固定的な行動ポリシーによって生成される状態-作用対はマルコフ連鎖に従う。
我々は、この大きな偏差原理の速度関数を用いて、未知の状態-作用-次の状態分布に対する不確実性集合を構築する。
論文 参考訳(メタデータ) (2025-03-15T22:41:55Z) - Gradient Equilibrium in Online Learning: Theory and Applications [56.02856551198923]
勾配平衡は標準オンライン学習法によって達成される。
勾配平衡は、オンライン予測問題において解釈可能かつ有意義な性質に変換される。
勾配平衡フレームワークは,ブラックボックス予測の偏りを緩和する手法の開発に利用できることを示す。
論文 参考訳(メタデータ) (2025-01-14T18:59:09Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - A comment on stabilizing reinforcement learning [0.0]
我々は、Vamvoudakisらは、一般的な政策の下でハミルトニアンに誤った仮定をしたと論じる。
動作ポリシーホールドに一定の条件を課した連続重時間環境下でのニューラルネットワークの収束を示す。
論文 参考訳(メタデータ) (2021-11-24T07:58:14Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。