Fugu-MT 論文翻訳(概要): Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

論文の概要: Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

arxiv url: http://arxiv.org/abs/2603.17058v1
Date: Tue, 17 Mar 2026 18:45:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-21 18:33:56.928892
Title: Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models
Title（参考訳）: 最適応答写像による非対称ナッシュ探索:不正確な反応モデルに対する大域的線形収束とロバスト性
Authors: Mahdis Rabbani, Navid Mojahed, Shima Nazari,
Abstract要約: ナッシュ均衡(Nash equilibria)は、マルチエージェントの意思決定と制御における相互作用をモデル化するための原則的なフレームワークを提供する。この手紙は、非対称情報 2-プレーヤ制約付きゲームのクラスを分離可能な集合で研究する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Nash equilibria provide a principled framework for modeling interactions in multi-agent decision-making and control. However, many equilibrium-seeking methods implicitly assume that each agent has access to the other agents' objectives and constraints, an assumption that is often unrealistic in practice. This letter studies a class of asymmetric-information two-player constrained games with decoupled feasible sets, in which Player 1 knows its own objective and constraints while Player 2 is available only through a best-response map. For this class of games, we propose an asymmetric projected gradient descent-best response iteration that does not require full mutual knowledge of both players' optimization problems. Under suitable regularity conditions, we establish the existence and uniqueness of the Nash equilibrium and prove global linear convergence of the proposed iteration when the best-response map is exact. Recognizing that best-response maps are often learned or estimated, we further analyze the inexact case and show that, when the approximation error is uniformly bounded by $\varepsilon$, the iterates enter an explicit $O(\varepsilon)$ neighborhood of the true Nash equilibrium. Numerical results on a benchmark game corroborate the predicted convergence behavior and error scaling.
Abstract（参考訳）: ナッシュ均衡(Nash equilibria)は、マルチエージェントの意思決定と制御における相互作用をモデル化するための原則的なフレームワークを提供する。しかし、多くの平衡探索法は、各エージェントが他のエージェントの目的や制約にアクセスできると暗黙的に仮定している。この手紙は、非対称情報 2-プレイヤー制約付きゲームのクラスを分離可能集合で研究し、プレイヤー1は自身の目的と制約を知っていて、プレイヤー2は最も応答性の高い写像を通してのみ利用可能である。このクラスのゲームに対して、両プレイヤーの最適化問題に対する完全な相互知識を必要としない非対称な勾配降下ベスト応答反復を提案する。適切な正則性条件の下では、ナッシュ均衡の存在と一意性を確立し、最良の応答写像が正確であるときに提案された反復の大域的線形収束を証明する。最適応答写像がしばしば学習または推定されることを認識し、さらに不正確なケースを解析し、近似誤差が一様に$\varepsilon$で有界であるとき、イテレートが真のナッシュ平衡の明示的な$O(\varepsilon)$近傍に入ることを示す。ベンチマークゲームにおける数値結果は、予測収束挙動とエラースケーリングを相関させる。

関連論文リスト

Accelerating Nash Learning from Human Feedback via Mirror Prox [36.04055906691423]
オンラインNLHFアルゴリズムであるNash Mirror Prox(mathtNash-MP$)を導入する。我々の理論的解析により、ナッシュ-MPは、$beta$-regularized Nash平衡に対して、最終点の線形収束を示すことが証明された。また,Nash-MPは,利用可能性ギャップと対数確率の半ノルムの均一性に対して,最終等級の線形収束を示すことを示した。
論文参考訳（メタデータ） (2025-05-26T09:17:32Z)
Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデルと人間の好みを合わせることに成功している。 DPOのような一般的な手法は高い性能を示してきたが、彼らは言語モデルとの相互作用を帯域幅の問題として捉えている。本稿では,アライメント問題を2プレイヤー定数マルコフゲームとしてモデル化することで,これらの課題に対処する。
論文参考訳（メタデータ） (2025-02-18T09:33:48Z)
Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文参考訳（メタデータ） (2023-02-20T16:05:04Z)
ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文参考訳（メタデータ） (2023-01-20T23:55:30Z)
Global Nash Equilibrium in Non-convex Multi-player Game: Theory and Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文参考訳（メタデータ） (2023-01-19T11:36:50Z)
Multiplayer Performative Prediction: Learning in Decision-Dependent Games [18.386569111954213]
本稿では,マルチプレイヤー演奏予測のための新たなゲーム理論の枠組みを定式化する。我々は、(i)パフォーマンス的に安定な平衡と(ii)ゲームのナッシュ平衡という、2つの異なる解の概念に焦点を当てる。軽微な仮定の下では、様々なアルゴリズムにより、性能的に安定な平衡を効率的に見つけることができることを示す。
論文参考訳（メタデータ） (2022-01-10T15:31:10Z)
Towards convergence to Nash equilibria in two-team zero-sum games [17.4461045395989]
2チームゼロサムゲームは、プレイヤーが2つの競合するエージェントに分割されるマルチプレイヤーゲームとして定義される。我々はNash equilibria(NE)の解の概念に焦点をあてる。このクラスのゲームに対する計算 NE は、複雑性クラス $mathrm$ に対して $textithard$ であることを示す。
論文参考訳（メタデータ） (2021-11-07T21:15:35Z)
Learning to Compute Approximate Nash Equilibrium for Normal-form Games [15.321036952379488]
有限$n$-playerの正規形式ゲームに対して,Nash平衡を近似的に計算するための一般的なメタ学習手法を提案する。ゲーム毎のナッシュ均衡をスクラッチから近似あるいは学習する既存の解とは異なり、メタソルバはゲームユーティリティ行列からジョイント戦略プロファイルへの写像を直接構築する。
論文参考訳（メタデータ） (2021-08-17T07:06:46Z)
Bounded rationality for relaxing best response and mutual consistency: An information-theoretic model of partial self-reference [0.0]
この研究は、相互整合性やベストレスポンスなど、合理的性の前提となるいくつかの仮定に焦点を当てている。我々は、レベル-$k$推論と量子応答平衡(QRE)の概念を用いて、これらの仮定を緩和する方法を検討する。
論文参考訳（メタデータ） (2021-06-30T06:56:56Z)
Better Regularization for Sequential Decision Spaces: Fast Convergence Rates for Nash, Correlated, and Team Equilibria [121.36609493711292]
大規模2プレーヤワイドフォームゲームの計算平衡問題に対する反復的な一階法の適用について検討する。正則化器を用いて一階法をインスタンス化することにより、相関平衡と元アンティー座標のチーム平衡を計算するための最初の加速一階法を開発する。
論文参考訳（メタデータ） (2021-05-27T06:10:24Z)
Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文参考訳（メタデータ） (2021-02-23T05:11:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。