論文の概要: Optimal Rates for Feasible Payoff Set Estimation in Games
- arxiv url: http://arxiv.org/abs/2602.04397v1
- Date: Wed, 04 Feb 2026 10:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.474653
- Title: Optimal Rates for Feasible Payoff Set Estimation in Games
- Title(参考訳): ゲームにおけるフェーザブル・ペイオフ・セット推定のための最適レート
- Authors: Annalisa Barbara, Riccardo Poiani, Martino Bernasconi, Andrea Celli,
- Abstract要約: ゲーム逆理論は、観察された行動と整合した支払の集合全体を特定することを目的としている。
我々は、ハースドルフ計量上で、高い確率と最大精度で実現可能なペイオフの集合を推定する問題に焦点をあてる。
この結果は,マルチエージェント環境における設定値のペイオフ推論のための学習理論の基礎を提供する。
- 参考スコア(独自算出の注目度): 19.616985668606695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a setting in which two players play a (possibly approximate) Nash equilibrium of a bimatrix game, while a learner observes only their actions and has no knowledge of the equilibrium or the underlying game. A natural question is whether the learner can rationalize the observed behavior by inferring the players' payoff functions. Rather than producing a single payoff estimate, inverse game theory aims to identify the entire set of payoffs consistent with observed behavior, enabling downstream use in, e.g., counterfactual analysis and mechanism design across applications like auctions, pricing, and security games. We focus on the problem of estimating the set of feasible payoffs with high probability and up to precision $ε$ on the Hausdorff metric. We provide the first minimax-optimal rates for both exact and approximate equilibrium play, in zero-sum as well as general-sum games. Our results provide learning-theoretic foundations for set-valued payoff inference in multi-agent environments.
- Abstract(参考訳): 本研究では,2人のプレイヤーがビマトリクスゲームのナッシュ均衡を(おそらく近似的に)プレイするのに対して,学習者は自身の行動のみを観察し,均衡や基礎となるゲームについて知識を持たない設定について検討する。
自然な疑問は、学習者がプレイヤーの支払機能を推測することで観察された振る舞いを合理化できるかどうかである。
逆ゲーム理論は、単一のペイオフ見積を生成するのではなく、観察された振る舞いと整合した支払の集合全体を特定し、下流での使用を可能にすることを目的としている。
我々は、ハースドルフ計量上で、高い確率と最大$ε$の精度で実現可能なペイオフの集合を推定する問題に焦点をあてる。
ゼロサムゲームおよび一般サムゲームにおいて、正確な平衡プレイと近似平衡プレイの両方に対して、最初のミニマックス最適レートを提供する。
この結果は,マルチエージェント環境における設定値のペイオフ推論のための学習理論の基礎を提供する。
関連論文リスト
- Learning Equilibria in Matching Games with Bandit Feedback [2.5015086558362247]
一般化された二面マッチング市場における均衡学習の問題について検討する。
エージェントが選好を作成し、ゲームペイオフの楽観的な推定に基づいて選択する UCB アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-04T10:15:51Z) - Instance-Dependent Regret Bounds for Learning Two-Player Zero-Sum Games with Bandit Feedback [60.610120215789976]
純粋な戦略 ナッシュ均衡が存在するとき、$c$ は 0 となり、最適のインスタンス依存後悔境界となることを示す。
また,本アルゴリズムは最終段階の収束性も享受し,ほぼ最適サンプルを用いて純粋な戦略ナッシュ均衡を同定することができる。
論文 参考訳(メタデータ) (2025-02-24T20:20:06Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic
Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。
このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。
我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文 参考訳(メタデータ) (2022-01-28T16:27:21Z) - Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。
我々はNash equilibria(NE)の解の概念に焦点をあてる。
このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文 参考訳(メタデータ) (2021-11-07T21:15:35Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Estimating $\alpha$-Rank by Maximizing Information Gain [26.440923373794444]
ゲーム理論は、ゲームが正確には知られていないがサンプリングによって見積もる必要がある設定において、ますます適用されている。
本稿では、このようなシナリオでうまく機能するように設計された人気のゲーム理論ソリューションコンセプトである$alpha$-rankに焦点を当てます。
本稿では,ResponseGraphUCBの信頼区間基準と比較し,情報ゲインの利点を示す。
論文 参考訳(メタデータ) (2021-01-22T15:46:35Z) - Learning Zero-Sum Simultaneous-Move Markov Games Using Function
Approximation and Correlated Equilibrium [116.56359444619441]
両プレイヤーのゼロサム有限ホライゾンマルコフゲームに対する効率の良い強化学習アルゴリズムを開発した。
オフライン環境では、両プレイヤーを制御し、双対性ギャップを最小化してナッシュ平衡を求める。
オンライン環境では、任意の相手と対戦する1人のプレイヤーを制御し、後悔を最小限に抑える。
論文 参考訳(メタデータ) (2020-02-17T17:04:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。