論文の概要: Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO
- arxiv url: http://arxiv.org/abs/2502.02901v1
- Date: Wed, 05 Feb 2025 05:48:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:26:45.158405
- Title: Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO
- Title(参考訳): 樹木伐採型PSROにおける政策抽象化とナッシュ微細化
- Authors: Christine Konicki, Mithun Chakraborty, Michael P. Wellman,
- Abstract要約: Policy Space Response Oracles (PSRO) は、従来の分析手法では複雑すぎるゲームを解決するために、実験的なゲーム理論解析を深層強化学習 (DRL) とインターリーブする。
ツリー露光PSRO (TE-PSRO) は、広義に粗い経験ゲームモデルを反復的に構築するこのアプローチの変種である。
TE-PSROには2つの方法論的進歩があり、不完全情報の複雑なゲームへの適用性を高めている。
- 参考スコア(独自算出の注目度): 10.137357924571262
- License:
- Abstract: Policy Space Response Oracles (PSRO) interleaves empirical game-theoretic analysis with deep reinforcement learning (DRL) to solve games too complex for traditional analytic methods. Tree-exploiting PSRO (TE-PSRO) is a variant of this approach that iteratively builds a coarsened empirical game model in extensive form using data obtained from querying a simulator that represents a detailed description of the game. We make two main methodological advances to TE-PSRO that enhance its applicability to complex games of imperfect information. First, we introduce a scalable representation for the empirical game tree where edges correspond to implicit policies learned through DRL. These policies cover conditions in the underlying game abstracted in the game model, supporting sustainable growth of the tree over epochs. Second, we leverage extensive form in the empirical model by employing refined Nash equilibria to direct strategy exploration. To enable this, we give a modular and scalable algorithm based on generalized backward induction for computing a subgame perfect equilibrium (SPE) in an imperfect-information game. We experimentally evaluate our approach on a suite of games including an alternating-offer bargaining game with outside offers; our results demonstrate that TE-PSRO converges toward equilibrium faster when new strategies are generated based on SPE rather than Nash equilibrium, and with reasonable time/memory requirements for the growing empirical model.
- Abstract(参考訳): Policy Space Response Oracles (PSRO) は、従来の分析手法では複雑すぎるゲームを解決するために、実験的なゲーム理論解析を深層強化学習 (DRL) とインターリーブする。
TE-PSRO(Tree-Exploiting PSRO)は、ゲームを詳細に記述したシミュレータのクエリから得られたデータを用いて、粗い経験ゲームモデルを広範囲に反復的に構築する手法の一種である。
TE-PSROには2つの方法論的進歩があり、不完全情報の複雑なゲームへの適用性を高めている。
まず,DRLで学習した暗黙のポリシーにエッジを対応させる経験的ゲームツリーのスケーラブルな表現を提案する。
これらのポリシーは、ゲームモデルで抽象化されたゲームの根底にある条件をカバーし、エポック上でのツリーの持続的な成長をサポートする。
第2に,改良されたナッシュ平衡を戦略探索の直接的手法として利用することにより,経験モデルにおける広範な形態を活用する。
これを実現するために,不完全な情報ゲームにおいて,サブゲーム完全平衡(SPE)を演算するための一般化された後方帰納法に基づく,モジュラーでスケーラブルなアルゴリズムを提案する。
TE-PSROは,ナッシュ平衡ではなくSPEに基づいて新たな戦略が生成される場合に,より早く平衡に収束することを示した。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Scalable Learning of Intrusion Responses through Recursive Decomposition [0.0]
本稿では,ITインフラへの自動侵入応答と,攻撃者と防御者との相互作用を部分的に観察されたゲームとして検討する。
この問題を解決するために、我々は、強化学習と均衡に向けた自己プレイを通じて、攻撃戦略と防衛戦略が共進化するアプローチに従う。
近似により平衡を学習するDFSP(Decompositional Fictitious Self-Play)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-06T18:12:07Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。
世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文 参考訳(メタデータ) (2023-05-23T16:37:21Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - Dyna-T: Dyna-Q and Upper Confidence Bounds Applied to Trees [0.9137554315375919]
本稿ではDyna-Tという新しいアルゴリズムについて予備検討する。
強化学習(RL)では、計画エージェントは環境をモデルとして表現する。
より良いモデルを学ぶために、あるいは価値関数とポリシーを直接改善するために、経験を使うことができる。
論文 参考訳(メタデータ) (2022-01-12T15:06:30Z) - Collective eXplainable AI: Explaining Cooperative Strategies and Agent
Contribution in Multiagent Reinforcement Learning with Shapley Values [68.8204255655161]
本研究は,シェープリー値を用いたマルチエージェントRLにおける協調戦略を説明するための新しい手法を提案する。
結果は、差別的でない意思決定、倫理的かつ責任あるAI由来の意思決定、公正な制約の下での政策決定に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2021-10-04T10:28:57Z) - Hindsight and Sequential Rationality of Correlated Play [18.176128899338433]
私たちは、修正された振る舞いで達成できたことに対して、強いパフォーマンスを後見で保証するアルゴリズムを検討します。
我々は,学習の隠れた枠組みを,逐次的な意思決定の場で開発し,提唱する。
本稿では,それぞれの平衡の強さと弱さを文献に示す例を示す。
論文 参考訳(メタデータ) (2020-12-10T18:30:21Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - Pipeline PSRO: A Scalable Approach for Finding Approximate Nash
Equilibria in Large Games [11.866835246140647]
ポリシー空間応答オラクル(英: Policy Space Response Oracles、PSRO)は、近似的なナッシュ均衡に収束することが保証される深い強化学習アルゴリズムである。
大規模ゲームにおける近似的なナッシュ平衡を求めるための,最初のスケーラブルな一般化手法であるPipeline PSROを紹介する。
また,ストラテゴの変種であるBarrage Strategoのオープンソース環境についても紹介する。
論文 参考訳(メタデータ) (2020-06-15T17:17:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。