論文の概要: Blind Inverse Game Theory: Jointly Decoding Rewards and Rationality in Entropy-Regularized Competitive Games
- arxiv url: http://arxiv.org/abs/2511.05640v1
- Date: Fri, 07 Nov 2025 16:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.516323
- Title: Blind Inverse Game Theory: Jointly Decoding Rewards and Rationality in Entropy-Regularized Competitive Games
- Title(参考訳): Blind Inverse Game Theory: Entropy-Regularized Competitive Games における Rewards と Rationality の同時復号化
- Authors: Hamza Virk, Sandro Amaglobeli, Zuhayr Syed,
- Abstract要約: 観測行動から$theta$と$tau$を共同で回収する最初の統計フレームワークであるBlind-IGTを紹介する。
結合パラメータの回復に最適な$mathcalO(N-1/2)$収束率を達成できることを示す。
フレームワークをマルコフゲームに拡張し、強い経験的性能で最適な収束率を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Game Theory (IGT) methods based on the entropy-regularized Quantal Response Equilibrium (QRE) offer a tractable approach for competitive settings, but critically assume the agents' rationality parameter (temperature $\tau$) is known a priori. When $\tau$ is unknown, a fundamental scale ambiguity emerges that couples $\tau$ with the reward parameters ($\theta$), making them statistically unidentifiable. We introduce Blind-IGT, the first statistical framework to jointly recover both $\theta$ and $\tau$ from observed behavior. We analyze this bilinear inverse problem and establish necessary and sufficient conditions for unique identification by introducing a normalization constraint that resolves the scale ambiguity. We propose an efficient Normalized Least Squares (NLS) estimator and prove it achieves the optimal $\mathcal{O}(N^{-1/2})$ convergence rate for joint parameter recovery. When strong identifiability conditions fail, we provide partial identification guarantees through confidence set construction. We extend our framework to Markov games and demonstrate optimal convergence rates with strong empirical performance even when transition dynamics are unknown.
- Abstract(参考訳): エントロピー規則化された量子応答平衡 (QRE) に基づく逆ゲーム理論 (IGT) 法は、競合する設定に対して難解なアプローチを提供するが、エージェントの合理性パラメータ (温度$\tau$) が先行性として知られていることを批判的に仮定する。
$\tau$が未知の場合、基本的なスケールの曖昧さが出現し、$\tau$と報酬パラメータ($\theta$)を結合し、統計的に識別できない。
Blind-IGTは、観測された振る舞いから$\theta$と$\tau$の両方を共同で回収する最初の統計フレームワークである。
我々はこの双線型逆問題を分析し、スケールのあいまいさを解消する正規化制約を導入することにより、一意に識別するための必要かつ十分な条件を確立する。
本研究では,NLS(正規化最小方形)の効率的な推定器を提案し,結合パラメータ回復のための最適$\mathcal{O}(N^{-1/2})$収束率を証明した。
強い識別可能性条件が失敗すると、信頼セットの構成を通じて部分的な識別保証を提供する。
フレームワークをマルコフゲームに拡張し、遷移力学が未知であっても強い経験的性能で最適な収束率を示す。
関連論文リスト
- Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Federated Learning in the Presence of Adversarial Client Unavailability [16.201377650598516]
フェデレートラーニング(Federated Learning)は、生データを公開せずにコラボレーティブモデルを可能にする、分散機械学習フレームワークである。
多様なハードウェアソフトウェアに制限があるため、クライアントはサーバからの計算要求に対して常に利用できるとは限らない。
戦場のような厳しい環境では、敵は特定のクライアントを選択的に黙らせることができる。
論文 参考訳(メタデータ) (2023-05-31T15:57:07Z) - A Robustness Analysis of Blind Source Separation [91.3755431537592]
ブラインドソース分離(BSS)は、変換$f$が可逆であるが未知であるという条件の下で、その混合である$X=f(S)$から観測されていない信号を復元することを目的としている。
このような違反を分析し、その影響を$X$から$S$のブラインドリカバリに与える影響を定量化するための一般的なフレームワークを提案する。
定義された構造的仮定からの偏差に対する一般的なBSS溶出は、明示的な連続性保証という形で、利益的に分析可能であることを示す。
論文 参考訳(メタデータ) (2023-03-17T16:30:51Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。