論文の概要: Simulation-Free PSRO: Removing Game Simulation from Policy Space Response Oracles
- arxiv url: http://arxiv.org/abs/2601.05279v1
- Date: Tue, 30 Dec 2025 14:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.558141
- Title: Simulation-Free PSRO: Removing Game Simulation from Policy Space Response Oracles
- Title(参考訳): シミュレーションフリーPSRO:政策空間対応オラクルからゲームシミュレーションを取り除く
- Authors: Yingzhuo Liu, Shuodi Liu, Weijun Luo, Liuyu Xiang, Zhaofeng He,
- Abstract要約: Policy Space Response Oracles (PSRO) は、ゲーム理論の平衡計算と学習を組み合わせ、ゼロサムゲームにおけるナッシュ平衡の近似に有効である。
分析の結果,PSROのランタイムにおいてゲームシミュレーションが主要なボトルネックとなっていることがわかった。
提案手法は,PSROが保持する戦略を代替する戦略ウィンドウの概念を導入し,動的ウィンドウに基づくシミュレーションフリーPSROを提案する。
- 参考スコア(独自算出の注目度): 12.95757021157425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy Space Response Oracles (PSRO) combines game-theoretic equilibrium computation with learning and is effective in approximating Nash Equilibrium in zero-sum games. However, the computational cost of PSRO has become a significant limitation to its practical application. Our analysis shows that game simulation is the primary bottleneck in PSRO's runtime. To address this issue, we conclude the concept of Simulation-Free PSRO and summarize existing methods that instantiate this concept. Additionally, we propose a novel Dynamic Window-based Simulation-Free PSRO, which introduces the concept of a strategy window to replace the original strategy set maintained in PSRO. The number of strategies in the strategy window is limited, thereby simplifying opponent strategy selection and improving the robustness of the best response. Moreover, we use Nash Clustering to select the strategy to be eliminated, ensuring that the number of strategies within the strategy window is effectively limited. Our experiments across various environments demonstrate that the Dynamic Window mechanism significantly reduces exploitability compared to existing methods, while also exhibiting excellent compatibility. Our code is available at https://github.com/enochliu98/SF-PSRO.
- Abstract(参考訳): Policy Space Response Oracles (PSRO) は、ゲーム理論の平衡計算と学習を組み合わせ、ゼロサムゲームにおけるナッシュ平衡の近似に有効である。
しかし、PSROの計算コストは、その実用上重要な限界となっている。
分析の結果,PSROのランタイムにおいてゲームシミュレーションが主要なボトルネックとなっていることがわかった。
この問題に対処するため、シミュレーションフリーPSROの概念をまとめ、この概念をインスタンス化する既存の手法を要約する。
また,新しい動的ウィンドウベースのシミュレーションフリーPSROを提案し,PSROが維持する戦略を代替する戦略ウィンドウの概念を導入した。
戦略ウィンドウ内の戦略数を制限することにより、対戦戦略選択を簡素化し、最良の応答の堅牢性を向上させる。
さらに、Nash Clusteringを使用して、排除すべき戦略を選択し、戦略ウィンドウ内の戦略の数が効果的に制限されることを保証します。
各種環境を対象とした実験により,動的ウィンドウ機構は既存手法に比べて操作性を著しく低下させるとともに,互換性も良好であることが示された。
私たちのコードはhttps://github.com/enochliu98/SF-PSROで公開されています。
関連論文リスト
- Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - Stochastic activations [53.40901433014535]
この戦略は、大規模言語モデルのフィードフォワード層における複数の非線形関数をランダムに選択する。
我々は,(1)事前学習中にアクティベーションを使用し,RELUを用いてモデルを微調整する。
この戦略は、温度スケーリングと組み合わせた最良の決定論的非線形性(SILU)よりもわずかに劣る。
論文 参考訳(メタデータ) (2025-09-26T13:53:56Z) - Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO [10.137357924571262]
Policy Space Response Oracles (PSRO) は、従来の分析手法では複雑すぎるゲームを解決するために、実験的なゲーム理論解析を深層強化学習 (DRL) とインターリーブする。
ツリー露光PSRO (TE-PSRO) は、広義に粗い経験ゲームモデルを反復的に構築するこのアプローチの変種である。
TE-PSROには2つの方法論的進歩があり、不完全情報の複雑なゲームへの適用性を高めている。
論文 参考訳(メタデータ) (2025-02-05T05:48:16Z) - Policy Space Response Oracles: A Survey [16.421805293725818]
この調査は、Physal Space Response Oracles (PSRO)として知られる大規模なゲームのためのフレームワークの概要を提供する。
PSROは,戦略の十分なサブセットに注目することで,スケーラビリティ向上を約束している。
我々はPSROの戦略探索問題に焦点をあてる: 計算コストを最小に抑えながらオリジナルのゲームを表現する戦略の効果的なサブセットを組み立てることの課題である。
論文 参考訳(メタデータ) (2024-03-04T17:15:09Z) - Scalable Learning of Intrusion Responses through Recursive Decomposition [0.0]
本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。
この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。
近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-06T18:12:07Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Mixed Strategies for Robust Optimization of Unknown Objectives [93.8672371143881]
そこでは,不確実なパラメータの最悪の実現に対して,未知の目的関数を最適化することを目的として,ロバストな最適化問題を考察する。
我々は,未知の目的をノイズ点評価から逐次学習する,新しいサンプル効率アルゴリズムGP-MROを設計する。
GP-MROは、最悪のケースで期待される目標値を最大化する、堅牢でランダムな混合戦略の発見を目指している。
論文 参考訳(メタデータ) (2020-02-28T09:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。