論文の概要: Policy Space Response Oracles: A Survey
- arxiv url: http://arxiv.org/abs/2403.02227v1
- Date: Mon, 4 Mar 2024 17:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:56:12.530932
- Title: Policy Space Response Oracles: A Survey
- Title(参考訳): 政策空間対応 Oracle: 調査
- Authors: Ariyan Bighashdel, Yongzhao Wang, Stephen McAleer, Rahul Savani, Frans
A. Oliehoek
- Abstract要約: この調査は、Physal Space Response Oracles (PSRO)として知られる、大規模ゲームのための高速開発フレームワークの概要を提供する。
我々はまずPSROを動機付け、歴史的文脈を提供し、PSROをゲーム推論のアプローチで位置づける。
次に,PSROの戦略探索問題に焦点をあて,基礎となるゲームを最小計算コストでモデル化するための効果的な戦略ポートフォリオを構築するという課題について述べる。
- 参考スコア(独自算出の注目度): 17.618067368613648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In game theory, a game refers to a model of interaction among rational
decision-makers or players, making choices with the goal of achieving their
individual objectives. Understanding their behavior in games is often referred
to as game reasoning. This survey provides a comprehensive overview of a
fast-developing game-reasoning framework for large games, known as Policy Space
Response Oracles (PSRO). We first motivate PSRO, provide historical context,
and position PSRO within game-reasoning approaches. We then focus on the
strategy exploration issue for PSRO, the challenge of assembling an effective
strategy portfolio for modeling the underlying game with minimum computational
cost. We also survey current research directions for enhancing the efficiency
of PSRO, and explore the applications of PSRO across various domains. We
conclude by discussing open questions and future research.
- Abstract(参考訳): ゲーム理論では、ゲームは合理的な意思決定者やプレイヤー間の相互作用のモデルであり、個々の目的を達成することを目標として選択する。
ゲームの振る舞いを理解することは、しばしばゲーム推論と呼ばれる。
このサーベイは、Physal Space Response Oracles (PSRO)として知られる、大規模ゲームのための高速開発ゲーム推論フレームワークの概要を提供する。
我々はまずPSROを動機付け、歴史的文脈を提供し、PSROをゲーム推論のアプローチで位置づける。
次に,PSROの戦略探索問題に焦点をあて,基礎となるゲームを最小計算コストでモデル化するための効果的な戦略ポートフォリオを構築するという課題について述べる。
また,PSROの効率向上に向けた現在の研究の方向性を調査し,様々な領域におけるPSROの適用について検討する。
オープンな質問と今後の研究について論じる。
関連論文リスト
- LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。
世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文 参考訳(メタデータ) (2023-05-23T16:37:21Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z) - RESPER: Computationally Modelling Resisting Strategies in Persuasive
Conversations [0.7505101297221454]
説得的会話における抵抗戦略を識別するための一般化フレームワークを提案する。
実験では,非協調的目標指向会話におけるパワーロールの非対称性を明らかにする。
また,会話結果に対するさまざまな抵抗戦略の役割についても検討した。
論文 参考訳(メタデータ) (2021-01-26T03:44:17Z) - Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit
Reasoning Strategies [78.68534915690404]
StrategyQAは、必要な推論ステップが問題に暗黙的であり、戦略を使用して推論されるべきベンチマークです。
用語に基づくプライミングを組み合わせ、アノテーションーを刺激し、アノテーションーの集団を慎重に制御し、推論ショートカットを排除するための逆フィルタリングを行うデータ収集手順を提案する。
総合的に、StrategyQAには2,780の例があり、それぞれが戦略問題、その分解、証拠パラグラフで構成されている。
論文 参考訳(メタデータ) (2021-01-06T19:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。