論文の概要: Policy Space Response Oracles: A Survey
- arxiv url: http://arxiv.org/abs/2403.02227v2
- Date: Mon, 27 May 2024 16:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 06:45:59.926065
- Title: Policy Space Response Oracles: A Survey
- Title(参考訳): 政策空間対応 Oracle: 調査
- Authors: Ariyan Bighashdel, Yongzhao Wang, Stephen McAleer, Rahul Savani, Frans A. Oliehoek,
- Abstract要約: この調査は、Physal Space Response Oracles (PSRO)として知られる大規模なゲームのためのフレームワークの概要を提供する。
PSROは,戦略の十分なサブセットに注目することで,スケーラビリティ向上を約束している。
我々はPSROの戦略探索問題に焦点をあてる: 計算コストを最小に抑えながらオリジナルのゲームを表現する戦略の効果的なサブセットを組み立てることの課題である。
- 参考スコア(独自算出の注目度): 16.421805293725818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Game theory provides a mathematical way to study the interaction between multiple decision makers. However, classical game-theoretic analysis is limited in scalability due to the large number of strategies, precluding direct application to more complex scenarios. This survey provides a comprehensive overview of a framework for large games, known as Policy Space Response Oracles (PSRO), which holds promise to improve scalability by focusing attention on sufficient subsets of strategies. We first motivate PSRO and provide historical context. We then focus on the strategy exploration problem for PSRO: the challenge of assembling effective subsets of strategies that still represent the original game well with minimum computational cost. We survey current research directions for enhancing the efficiency of PSRO, and explore the applications of PSRO across various domains. We conclude by discussing open questions and future research.
- Abstract(参考訳): ゲーム理論は、複数の意思決定者間の相互作用を研究する数学的方法を提供する。
しかし、古典的なゲーム理論解析は、より複雑なシナリオへの直接適用を前もって、多くの戦略のためにスケーラビリティに制限されている。
この調査は、ポリシスペースレスポンスオラクル(PSRO)として知られる、大規模なゲームのためのフレームワークの概要を提供する。
われわれはまずPSROを動機付け、歴史的文脈を提供する。
次に,PSROの戦略探索問題,すなわち,オリジナルのゲームを表す戦略の効果的なサブセットを最小計算コストで組み立てることの課題に焦点をあてる。
我々は,PSROの効率向上に向けた現在の研究方向を調査し,PSROの様々な領域への応用について検討する。
オープンな質問と将来の研究を議論することで締めくくります。
関連論文リスト
- LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。
世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文 参考訳(メタデータ) (2023-05-23T16:37:21Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - RESPER: Computationally Modelling Resisting Strategies in Persuasive
Conversations [0.7505101297221454]
説得的会話における抵抗戦略を識別するための一般化フレームワークを提案する。
実験では,非協調的目標指向会話におけるパワーロールの非対称性を明らかにする。
また,会話結果に対するさまざまな抵抗戦略の役割についても検討した。
論文 参考訳(メタデータ) (2021-01-26T03:44:17Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z) - On the Effectiveness of Minisum Approval Voting in an Open Strategy
Setting: An Agent-Based Approach [68.8204255655161]
本研究は、戦略策定プロセスの幅広い参加者が組織のパフォーマンスに与える影響について研究する。
エージェントベースのシミュレーションは、大規模で多様な集団から生み出されたアイデアの数の増加と、その後の嗜好の集約が、組織のパフォーマンスランドスケープにおける高いピークの迅速な発見につながることを実証している。
論文 参考訳(メタデータ) (2020-09-07T14:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。