論文の概要: Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games
- arxiv url: http://arxiv.org/abs/2602.00606v1
- Date: Sat, 31 Jan 2026 08:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.283115
- Title: Actor-Dual-Critic Dynamics for Zero-sum and Identical-Interest Stochastic Games
- Title(参考訳): ゼロサムおよび Identical-Interest-Stochastic Games におけるアクター・ダイアル・クライブダイナミクス
- Authors: Ahmed Said Donmez, Yuksel Arslantas, Muhammed O. Sayin,
- Abstract要約: 本稿では,モデルフリー,ゲーム非依存,グラデーションフリーのゲームに対して,新たな独立かつペイオフベースの学習フレームワークを提案する。
無限地平線上の二エージェントゼロサムおよび多エージェント同一関心ゲームにおける(近似)リビリアへの収束を確立する。
これにより、両方の設定で理論的に保証された最初のペイオフベースで完全に分散化された学習アルゴリズムの1つが提供される。
- 参考スコア(独自算出の注目度): 2.992414059774663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel independent and payoff-based learning framework for stochastic games that is model-free, game-agnostic, and gradient-free. The learning dynamics follow a best-response-type actor-critic architecture, where agents update their strategies (actors) using feedback from two distinct critics: a fast critic that intuitively responds to observed payoffs under limited information, and a slow critic that deliberatively approximates the solution to the underlying dynamic programming problem. Crucially, the learning process relies on non-equilibrium adaptation through smoothed best responses to observed payoffs. We establish convergence to (approximate) equilibria in two-agent zero-sum and multi-agent identical-interest stochastic games over an infinite horizon. This provides one of the first payoff-based and fully decentralized learning algorithms with theoretical guarantees in both settings. Empirical results further validate the robustness and effectiveness of the proposed approach across both classes of games.
- Abstract(参考訳): 本稿では,モデルフリー,ゲーム非依存,グラデーションフリーの確率ゲームのための,独立かつペイオフベースの学習フレームワークを提案する。
学習ダイナミクスは、エージェントが2つの異なる批評家からのフィードバックを用いて戦略(アクター)を更新する、最高の応答型アクター批判アーキテクチャに従っている。
重要なことは、学習過程は観察された支払いに対する最もスムーズな反応を通じて非平衡適応に依存する。
無限地平線上の二エージェントゼロサムおよび多エージェント同関心確率ゲームにおける(近似)平衡の収束を確立する。
これにより、両方の設定で理論的に保証された最初のペイオフベースで完全に分散化された学習アルゴリズムの1つが提供される。
実験結果により,両クラスのゲームにおいて提案手法の堅牢性と有効性がさらに検証された。
関連論文リスト
- Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization [52.74762030521324]
本稿では,観察行動から報酬関数を学習するための新しいアルゴリズムを提案する。
我々は,アルゴリズムの信頼性とサンプル効率について,強力な理論的保証を提供する。
論文 参考訳(メタデータ) (2026-01-19T04:12:51Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Independent and Decentralized Learning in Markov Potential Games [3.549868541921029]
マルチエージェント強化学習ダイナミクスについて検討し、無限水平割引マルコフポテンシャルゲームにおけるその挙動を解析する。
我々は、プレイヤーがゲームパラメータを知らない、コミュニケーションやコーディネートができない、独立的で分散的な設定に焦点を当てる。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Multiplayer Performative Prediction: Learning in Decision-Dependent
Games [18.386569111954213]
本稿では,マルチプレイヤー演奏予測のための新たなゲーム理論の枠組みを定式化する。
我々は、(i)パフォーマンス的に安定な平衡と(ii)ゲームのナッシュ平衡という、2つの異なる解の概念に焦点を当てる。
軽微な仮定の下では、様々なアルゴリズムにより、性能的に安定な平衡を効率的に見つけることができることを示す。
論文 参考訳(メタデータ) (2022-01-10T15:31:10Z) - Decentralized Q-Learning in Zero-sum Markov Games [33.81574774144886]
ゼロサムマルコフゲームにおけるマルチエージェント強化学習(MARL)について検討した。
我々は、合理的かつ収束的な、根本的に非結合なQ-ラーニングダイナミクスを初めて開発する。
この分散環境における鍵となる課題は、エージェントの観点から学習環境の非定常性である。
論文 参考訳(メタデータ) (2021-06-04T22:42:56Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。