Fugu-MT 論文翻訳(概要): ApproxED: Approximate exploitability descent via learned best responses

論文の概要: ApproxED: Approximate exploitability descent via learned best responses

arxiv url: http://arxiv.org/abs/2301.08830v3
Date: Wed, 12 Jun 2024 22:39:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-15 02:48:35.000910
Title: ApproxED: Approximate exploitability descent via learned best responses
Title（参考訳）: ApproxED:学習したベストレスポンスによる近似的エクスプロイラビリティ降下
Authors: Carlos Martin, Tuomas Sandholm,
Abstract要約: 連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
参考スコア（独自算出の注目度）: 61.17702187957206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There has been substantial progress on finding game-theoretic equilibria. Most of that work has focused on games with finite, discrete action spaces. However, many games involving space, time, money, and other fine-grained quantities have continuous action spaces (or are best modeled as having such). We study the problem of finding an approximate Nash equilibrium of games with continuous action sets. The standard measure of closeness to Nash equilibrium is exploitability, which measures how much players can benefit from unilaterally changing their strategy. We propose two new methods that minimize an approximation of exploitability with respect to the strategy profile. The first method uses a learned best-response function, which takes the current strategy profile as input and outputs candidate best responses for each player. The strategy profile and best-response functions are trained simultaneously, with the former trying to minimize exploitability while the latter tries to maximize it. The second method maintains an ensemble of candidate best responses for each player. In each iteration, the best-performing elements of each ensemble are used to update the current strategy profile. The strategy profile and ensembles are simultaneously trained to minimize and maximize the approximate exploitability, respectively. We evaluate our methods on various continuous games and GAN training, showing that they outperform prior methods.
Abstract（参考訳）: ゲーム理論平衡の発見にはかなりの進歩があった。その研究のほとんどは、有限で離散的なアクション空間を持つゲームに焦点を当てている。しかし、空間、時間、お金、その他の細かい量を含む多くのゲームは連続的なアクション空間を持つ(あるいはそのような空間を持つようにモデル化される)。連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。ナッシュ均衡の密接度に関する標準的な尺度は、プレイヤーが一方的に戦略を変更することでどれだけの利益を得ることができるかを計測するエクスプロイラビリティである。本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。最初の方法は学習したベストレスポンス関数を使用し、現在の戦略プロファイルを入力として、各プレイヤーの候補ベストレスポンスを出力する。戦略プロファイルとベストレスポンス関数は同時にトレーニングされ、前者はエクスプロイラビリティを最小化しようと試み、後者はそれを最大化しようとする。第2の方法は、各プレイヤーに対する候補ベストレスポンスのアンサンブルを保持する。各イテレーションでは、各アンサンブルの最高のパフォーマンス要素を使用して、現在の戦略プロファイルを更新します。戦略プロファイルとアンサンブルは、それぞれ近似的利用可能性の最小化と最大化のために同時に訓練される。各種連続ゲームやGANトレーニングにおいて,本手法が先行手法より優れていることを示す。

関連論文リスト

Multi-Step Alignment as Markov Games: An Optimistic Online Gradient Descent Approach with Convergence Guarantees [91.88803125231189]
マルチステップ優先最適化(MPO)は、自然なアクター批判フレームワークciteprakhlin2013online,joulani17a上に構築されている。我々はOMPOが$mathcalO(epsilon-1)$ポリシー更新を必要とし、$epsilon$-approximate Nash平衡に収束することを示した。また,本手法がマルチターン会話データセットと数理推論データセットに与える影響についても検証した。
論文参考訳（メタデータ） (2025-02-18T09:33:48Z)
Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文参考訳（メタデータ） (2023-12-19T20:01:42Z)
Finding mixed-strategy equilibria of continuous-action games without gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文参考訳（メタデータ） (2022-11-29T05:16:41Z)
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文参考訳（メタデータ） (2022-07-25T18:29:16Z)
Anytime Optimal PSRO for Two-Player Zero-Sum Games [17.821479538423155]
Policy Space Response Oracles (PSRO) は、継続的なアクションを扱うことができるゲームのための強化学習アルゴリズムである。 AODOは、ナッシュ均衡に収束する2プレイヤーゼロサムゲームのための二重オラクルアルゴリズムである。提案手法は, DOやPSROよりもはるかに低いエクスプロイザビリティを実現し, エクスプロイザビリティを向上しないことを示す。
論文参考訳（メタデータ） (2022-01-19T16:34:11Z)
On the Impossibility of Convergence of Mixed Strategies with No Regret Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文参考訳（メタデータ） (2020-12-03T18:02:40Z)
Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies in Extensive-Form Zero-Sum Games [123.76716667704625]
我々は,不完全情報ゼロサム拡張形式ゲームにおいて,対戦相手と対決する2人の選手のチームにとって最適な戦略を見つけることの課題に焦点をあてる。この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。各プロファイルにランダム化されるのはチームメンバーの1人だけであるプロファイルのみを用いることで、そのような最適な分布を計算するアルゴリズムを提供する。
論文参考訳（メタデータ） (2020-09-21T17:51:57Z)
Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文参考訳（メタデータ） (2020-09-13T21:01:38Z)
Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文参考訳（メタデータ） (2020-02-24T20:30:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。