論文の概要: Learning in Stackelberg Mean Field Games: A Non-Asymptotic Analysis
- arxiv url: http://arxiv.org/abs/2509.15392v1
- Date: Thu, 18 Sep 2025 19:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.886497
- Title: Learning in Stackelberg Mean Field Games: A Non-Asymptotic Analysis
- Title(参考訳): Stackelberg平均フィールドゲームにおける学習:非漸近解析
- Authors: Sihan Zeng, Benjamin Patrick Evans, Sujay Bhatt, Leo Ardon, Sumitra Ganesh, Alec Koppel,
- Abstract要約: Stackelberg平均フィールドゲーム(MFG)におけるポリシー最適化について検討する。
本稿では,連続的に生成するマルコフサンプルを利用するシングルループアクター批判アルゴリズムAC-SMFGを提案する。
アルゴリズムの有限時間および有限サンプル収束をスタックルバーグ目標の定常点に確立する。
- 参考スコア(独自算出の注目度): 22.360309142419208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study policy optimization in Stackelberg mean field games (MFGs), a hierarchical framework for modeling the strategic interaction between a single leader and an infinitely large population of homogeneous followers. The objective can be formulated as a structured bi-level optimization problem, in which the leader needs to learn a policy maximizing its reward, anticipating the response of the followers. Existing methods for solving these (and related) problems often rely on restrictive independence assumptions between the leader's and followers' objectives, use samples inefficiently due to nested-loop algorithm structure, and lack finite-time convergence guarantees. To address these limitations, we propose AC-SMFG, a single-loop actor-critic algorithm that operates on continuously generated Markovian samples. The algorithm alternates between (semi-)gradient updates for the leader, a representative follower, and the mean field, and is simple to implement in practice. We establish the finite-time and finite-sample convergence of the algorithm to a stationary point of the Stackelberg objective. To our knowledge, this is the first Stackelberg MFG algorithm with non-asymptotic convergence guarantees. Our key assumption is a "gradient alignment" condition, which requires that the full policy gradient of the leader can be approximated by a partial component of it, relaxing the existing leader-follower independence assumption. Simulation results in a range of well-established economics environments demonstrate that AC-SMFG outperforms existing multi-agent and MFG learning baselines in policy quality and convergence speed.
- Abstract(参考訳): Stackelberg mean field game (MFGs) において、単一リーダと無限に多くの同質なフォロワー間の戦略的相互作用をモデル化するための階層的な枠組みであるポリシー最適化について検討する。
この目的は、リーダーが報酬を最大化するポリシーを学習し、フォロワーの反応を期待する、構造化された二段階最適化問題として定式化することができる。
既存の(および関連する)問題の解法は、しばしばリーダーとフォロワーの目的の間の制限的な独立性の仮定に依存し、ネストループのアルゴリズム構造のためにサンプルを非効率に使用し、有限時間収束保証を欠いている。
これらの制約に対処するために,連続的に生成するマルコフサンプルで動作するシングルループアクター批判アルゴリズムであるAC-SMFGを提案する。
このアルゴリズムは、リーダ、代表者、および平均フィールドの(半)段階的な更新を交互に行い、実際に実装するのは簡単である。
アルゴリズムの有限時間および有限サンプル収束をスタックルバーグ目標の定常点に確立する。
我々の知る限り、これは非漸近収束保証を持つ最初のStackelberg MFGアルゴリズムである。
私たちのキーとなる前提は、リーダの完全な方針勾配をその部分的なコンポーネントによって近似し、既存のリーダとフォロワーの独立性の仮定を緩和する"段階的なアライメント"状態です。
シミュレーションにより、AC-SMFGは、政策品質と収束速度において、既存のマルチエージェントおよびMFG学習ベースラインを上回っていることを示す。
関連論文リスト
- Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Bandits with Preference Feedback: A Stackelberg Game Perspective [41.928798759636216]
好みのフィードバックを持つ帯域は、未知のターゲット関数を最適化する強力なツールを提供する。
ゼロサムのStackelbergゲームをエミュレートしたMAXMINLCBを提案する。
論文 参考訳(メタデータ) (2024-06-24T15:53:11Z) - Stackelberg Batch Policy Learning [3.5426153040167754]
バッチ強化学習(RL)は、徹底的な探索を欠いた固定されたデータのバッチから学習するタスクを定義する。
ログ化された経験から値関数モデルクラスを校正する最悪ケース最適化アルゴリズムが,バッチRLの有望なパラダイムとして登場した。
そこで我々は,新たな勾配に基づく学習アルゴリズムStackelbergLearnerを提案する。
論文 参考訳(メタデータ) (2023-09-28T06:18:34Z) - Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - A Communication-efficient Algorithm with Linear Convergence for
Federated Minimax Learning [1.713291434132985]
GAN(Geneimation Adversarial Networks)をモデル化した大規模マルチエージェントミニマックス最適化問題について検討する。
全体的な目的は、エージェントのプライベートなローカルな目的関数の総和である。
我々は,FedGDA-GTが,大域的な$epsilon GDA解に一定のステップサイズで線形収束することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:31:16Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。