論文の概要: Blind Inverse Game Theory: Jointly Decoding Rewards and Rationality in Entropy-Regularized Competitive Games
- arxiv url: http://arxiv.org/abs/2511.05640v1
- Date: Fri, 07 Nov 2025 16:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.516323
- Title: Blind Inverse Game Theory: Jointly Decoding Rewards and Rationality in Entropy-Regularized Competitive Games
- Title(参考訳): Blind Inverse Game Theory: Entropy-Regularized Competitive Games における Rewards と Rationality の同時復号化
- Authors: Hamza Virk, Sandro Amaglobeli, Zuhayr Syed,
- Abstract要約: 観測行動から$theta$と$tau$を共同で回収する最初の統計フレームワークであるBlind-IGTを紹介する。
結合パラメータの回復に最適な$mathcalO(N-1/2)$収束率を達成できることを示す。
フレームワークをマルコフゲームに拡張し、強い経験的性能で最適な収束率を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse Game Theory (IGT) methods based on the entropy-regularized Quantal Response Equilibrium (QRE) offer a tractable approach for competitive settings, but critically assume the agents' rationality parameter (temperature $\tau$) is known a priori. When $\tau$ is unknown, a fundamental scale ambiguity emerges that couples $\tau$ with the reward parameters ($\theta$), making them statistically unidentifiable. We introduce Blind-IGT, the first statistical framework to jointly recover both $\theta$ and $\tau$ from observed behavior. We analyze this bilinear inverse problem and establish necessary and sufficient conditions for unique identification by introducing a normalization constraint that resolves the scale ambiguity. We propose an efficient Normalized Least Squares (NLS) estimator and prove it achieves the optimal $\mathcal{O}(N^{-1/2})$ convergence rate for joint parameter recovery. When strong identifiability conditions fail, we provide partial identification guarantees through confidence set construction. We extend our framework to Markov games and demonstrate optimal convergence rates with strong empirical performance even when transition dynamics are unknown.
- Abstract(参考訳): エントロピー規則化された量子応答平衡 (QRE) に基づく逆ゲーム理論 (IGT) 法は、競合する設定に対して難解なアプローチを提供するが、エージェントの合理性パラメータ (温度$\tau$) が先行性として知られていることを批判的に仮定する。
$\tau$が未知の場合、基本的なスケールの曖昧さが出現し、$\tau$と報酬パラメータ($\theta$)を結合し、統計的に識別できない。
Blind-IGTは、観測された振る舞いから$\theta$と$\tau$の両方を共同で回収する最初の統計フレームワークである。
我々はこの双線型逆問題を分析し、スケールのあいまいさを解消する正規化制約を導入することにより、一意に識別するための必要かつ十分な条件を確立する。
本研究では,NLS(正規化最小方形)の効率的な推定器を提案し,結合パラメータ回復のための最適$\mathcal{O}(N^{-1/2})$収束率を証明した。
強い識別可能性条件が失敗すると、信頼セットの構成を通じて部分的な識別保証を提供する。
フレームワークをマルコフゲームに拡張し、遷移力学が未知であっても強い経験的性能で最適な収束率を示す。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Unregularized Linear Convergence in Zero-Sum Game from Preference Feedback [50.89125374999765]
NLHFにおける最適乗算重み更新(mathtOMWU$)に対する最初の収束保証を提供する。
本分析では, 稀に発生する行動の確率が指数関数的に小さい値から指数関数的に増大する新たな限界収束挙動を同定する。
論文 参考訳(メタデータ) (2025-12-31T12:08:29Z) - The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents [0.6117371161379209]
本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。
これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。
シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-12-24T02:02:25Z) - EVaR-Optimal Arm Identification in Bandits [7.340828059560291]
The fixed-confidence best arm identification problem in the multiarmed bandit (MAB) framework under the Entropic Value-at-Risk criterion。
論文 参考訳(メタデータ) (2025-10-06T11:49:56Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Little Exploration is All You Need [1.9321472560290351]
マルチアームバンディット問題において,標準 UCB アルゴリズムの新たな修正を導入する。
タスクの難易度を考慮に入れた$tau > 1/2$の調整付きボーナス項を提案する。
UCB$tau$と表記される提案アルゴリズムは,包括的後悔とリスク分析によって検証される。
論文 参考訳(メタデータ) (2023-10-26T16:28:29Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Federated Learning in the Presence of Adversarial Client Unavailability [16.201377650598516]
フェデレートラーニング(Federated Learning)は、生データを公開せずにコラボレーティブモデルを可能にする、分散機械学習フレームワークである。
多様なハードウェアソフトウェアに制限があるため、クライアントはサーバからの計算要求に対して常に利用できるとは限らない。
戦場のような厳しい環境では、敵は特定のクライアントを選択的に黙らせることができる。
論文 参考訳(メタデータ) (2023-05-31T15:57:07Z) - A Robustness Analysis of Blind Source Separation [91.3755431537592]
ブラインドソース分離(BSS)は、変換$f$が可逆であるが未知であるという条件の下で、その混合である$X=f(S)$から観測されていない信号を復元することを目的としている。
このような違反を分析し、その影響を$X$から$S$のブラインドリカバリに与える影響を定量化するための一般的なフレームワークを提案する。
定義された構造的仮定からの偏差に対する一般的なBSS溶出は、明示的な連続性保証という形で、利益的に分析可能であることを示す。
論文 参考訳(メタデータ) (2023-03-17T16:30:51Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。