Fugu-MT 論文翻訳(概要): Finite-Time Analysis of Q-Value Iteration for General-Sum Stackelberg Games

論文の概要: Finite-Time Analysis of Q-Value Iteration for General-Sum Stackelberg Games

arxiv url: http://arxiv.org/abs/2604.04394v1
Date: Mon, 06 Apr 2026 03:48:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.080476
Title: Finite-Time Analysis of Q-Value Iteration for General-Sum Stackelberg Games
Title（参考訳）: General-Sum Stackelberg GamesにおけるQ値反復の有限時間解析
Authors: Narim Jeong, Donghwan Lee,
Abstract要約: 本稿では,2プレイヤ汎用マルコフゲームにおけるスタックルバーグQ値反復の収束について,制御理論の観点から検討する。著者の知識を最大限に活用するために、この論文は、Stackelberg 相互作用の下での一般の Markov ゲームにおける Q-値反復に対する最初の有限時間収束保証を提供する。
参考スコア（独自算出の注目度）: 6.622208195193136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement learning has been successful both empirically and theoretically in single-agent settings, but extending these results to multi-agent reinforcement learning in general-sum Markov games remains challenging. This paper studies the convergence of Stackelberg Q-value iteration in two-player general-sum Markov games from a control-theoretic perspective. We introduce a relaxed policy condition tailored to the Stackelberg setting and model the learning dynamics as a switching system. By constructing upper and lower comparison systems, we establish finite-time error bounds for the Q-functions and characterize their convergence properties. Our results provide a novel control-theoretic perspective on Stackelberg learning. Moreover, to the best of the authors' knowledge, this paper offers the first finite-time convergence guarantees for Q-value iteration in general-sum Markov games under Stackelberg interactions.
Abstract（参考訳）: 強化学習は経験的にも理論的にもシングルエージェント環境でも成功したが、一般的なマルコフゲームにおいて、これらの結果をマルチエージェント強化学習に拡張することは依然として困難である。本稿では,2プレイヤ汎用マルコフゲームにおけるスタックルバーグQ値反復の収束について,制御理論の観点から検討する。そこで我々は,Stackelbergの設定に合わせて緩和されたポリシー条件を導入し,学習力学をスイッチングシステムとしてモデル化する。上と下の比較システムを構築することにより、Q-函数の有限時間誤差境界を確立し、それらの収束特性を特徴づける。この結果は,Stackelbergの学習における制御理論の新たな視点を提供する。さらに、著者の知識を最大限に活用するために、この論文は、Stackelberg 相互作用の下での一般の Markov ゲームにおける Q-値反復に対する最初の有限時間収束保証を提供する。

関連論文リスト

Optimistic Policy Gradient in Multi-Player Markov Games with a Single Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文参考訳（メタデータ） (2023-12-19T11:34:10Z)
Breaking the Curse of Multiagents in a Large State Space: RL in Markov Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文参考訳（メタデータ） (2023-02-07T18:47:48Z)
Uncoupled Learning of Differential Stackelberg Equilibria with Commitments [43.098826226730246]
ゼロ階勾配推定器に基づく非結合型学習ダイナミクスを提案する。従来の結合手法と同じ条件で、微分スタックルバーグ平衡に収束することが証明される。また、対称学習者がリーダー・フォロワーの役割を交渉できるオンラインメカニズムを提案する。
論文参考訳（メタデータ） (2023-02-07T12:46:54Z)
Learning in Stackelberg Games with Non-myopic Agents [60.927889817803745]
そこで本研究では,主役が非筋力的な長寿命エージェントと繰り返し対話するスタックルバーグゲームについて,エージェントの支払関数を知らずに検討する。我々は、非ミオピックエージェントの存在下での学習を、ミオピックエージェントの存在下で堅牢な帯域最適化に還元する一般的なフレームワークを提供する。
論文参考訳（メタデータ） (2022-08-19T15:49:30Z)
Independent and Decentralized Learning in Markov Potential Games [3.549868541921029]
マルチエージェント強化学習ダイナミクスについて検討し、無限水平割引マルコフポテンシャルゲームにおけるその挙動を解析する。我々は、プレイヤーがゲームパラメータを知らない、コミュニケーションやコーディネートができない、独立的で分散的な設定に焦点を当てる。
論文参考訳（メタデータ） (2022-05-29T07:39:09Z)
Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文参考訳（メタデータ） (2021-02-23T05:11:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。