論文の概要: Policy Space Response Oracles: A Survey
- arxiv url: http://arxiv.org/abs/2403.02227v1
- Date: Mon, 4 Mar 2024 17:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 17:56:12.530932
- Title: Policy Space Response Oracles: A Survey
- Title(参考訳): 政策空間対応 Oracle: 調査
- Authors: Ariyan Bighashdel, Yongzhao Wang, Stephen McAleer, Rahul Savani, Frans
A. Oliehoek
- Abstract要約: この調査は、Physal Space Response Oracles (PSRO)として知られる、大規模ゲームのための高速開発フレームワークの概要を提供する。
我々はまずPSROを動機付け、歴史的文脈を提供し、PSROをゲーム推論のアプローチで位置づける。
次に,PSROの戦略探索問題に焦点をあて,基礎となるゲームを最小計算コストでモデル化するための効果的な戦略ポートフォリオを構築するという課題について述べる。
- 参考スコア(独自算出の注目度): 17.618067368613648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In game theory, a game refers to a model of interaction among rational
decision-makers or players, making choices with the goal of achieving their
individual objectives. Understanding their behavior in games is often referred
to as game reasoning. This survey provides a comprehensive overview of a
fast-developing game-reasoning framework for large games, known as Policy Space
Response Oracles (PSRO). We first motivate PSRO, provide historical context,
and position PSRO within game-reasoning approaches. We then focus on the
strategy exploration issue for PSRO, the challenge of assembling an effective
strategy portfolio for modeling the underlying game with minimum computational
cost. We also survey current research directions for enhancing the efficiency
of PSRO, and explore the applications of PSRO across various domains. We
conclude by discussing open questions and future research.
- Abstract(参考訳): ゲーム理論では、ゲームは合理的な意思決定者やプレイヤー間の相互作用のモデルであり、個々の目的を達成することを目標として選択する。
ゲームの振る舞いを理解することは、しばしばゲーム推論と呼ばれる。
このサーベイは、Physal Space Response Oracles (PSRO)として知られる、大規模ゲームのための高速開発ゲーム推論フレームワークの概要を提供する。
我々はまずPSROを動機付け、歴史的文脈を提供し、PSROをゲーム推論のアプローチで位置づける。
次に,PSROの戦略探索問題に焦点をあて,基礎となるゲームを最小計算コストでモデル化するための効果的な戦略ポートフォリオを構築するという課題について述べる。
また,PSROの効率向上に向けた現在の研究の方向性を調査し,様々な領域におけるPSROの適用について検討する。
オープンな質問と今後の研究について論じる。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Policy Abstraction and Nash Refinement in Tree-Exploiting PSRO [10.137357924571262]
Policy Space Response Oracles (PSRO) は、従来の分析手法では複雑すぎるゲームを解決するために、実験的なゲーム理論解析を深層強化学習 (DRL) とインターリーブする。
ツリー露光PSRO (TE-PSRO) は、広義に粗い経験ゲームモデルを反復的に構築するこのアプローチの変種である。
TE-PSROには2つの方法論的進歩があり、不完全情報の複雑なゲームへの適用性を高めている。
論文 参考訳(メタデータ) (2025-02-05T05:48:16Z) - AirRAG: Activating Intrinsic Reasoning for Retrieval Augmented Generation using Tree-based Search [4.4907551923591695]
本稿では,システム解析と効率的な推論行動を統合したRAGにおける新しい思考パターンを提案する。
具体的には,本手法は5つの基本的な推論動作を設計し,より広い木に基づく推論空間に拡張する。
実験により,複雑な質問応答データセットに対して,AirRAGの有効性を示す。
論文 参考訳(メタデータ) (2025-01-17T09:16:13Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - Co-Learning Empirical Games and World Models [23.800790782022222]
実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。
世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
論文 参考訳(メタデータ) (2023-05-23T16:37:21Z) - Strategic Decision-Making in the Presence of Information Asymmetry:
Provably Efficient RL with Algorithmic Instruments [55.41685740015095]
我々は,戦略MDPと呼ばれる新しいモデルの下で,オフライン強化学習について検討する。
アルゴリズムiNstruments(PLAN)を用いたペシミスティックポリシー学習法を提案する。
論文 参考訳(メタデータ) (2022-08-23T15:32:44Z) - Efficient Policy Space Response Oracles [61.71849698253696]
ポリシー空間応答 Oracle 法 (PSRO) は、2プレイヤーゼロサムゲームにおけるナッシュ均衡の一般解を提供する。
我々の開発の中心は、制限なし(URR)ゲームにおけるミニマックス最適化の導入である。
壁面時間, 10倍のデータ効率, および既存のPSRO法と同様のエクスプロイザビリティを, Kuhn と Leduc Poker のゲームで50倍高速化したことを報告した。
論文 参考訳(メタデータ) (2022-01-28T17:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。