論文の概要: Co-Learning Empirical Games and World Models
- arxiv url: http://arxiv.org/abs/2305.14223v1
- Date: Tue, 23 May 2023 16:37:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:45:04.778774
- Title: Co-Learning Empirical Games and World Models
- Title(参考訳): 共学の実証ゲームと世界モデル
- Authors: Max Olan Smith, Michael P. Wellman
- Abstract要約: 実証ゲームは世界モデルをゲーム力学のより広範な考察へと導く。
世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
新しいアルゴリズムであるDyna-PSROは、経験ゲームと世界モデルの共同学習である。
- 参考スコア(独自算出の注目度): 23.800790782022222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Game-based decision-making involves reasoning over both world dynamics and
strategic interactions among the agents. Typically, empirical models capturing
these respective aspects are learned and used separately. We investigate the
potential gain from co-learning these elements: a world model for dynamics and
an empirical game for strategic interactions. Empirical games drive world
models toward a broader consideration of possible game dynamics induced by a
diversity of strategy profiles. Conversely, world models guide empirical games
to efficiently discover new strategies through planning. We demonstrate these
benefits first independently, then in combination as realized by a new
algorithm, Dyna-PSRO, that co-learns an empirical game and a world model. When
compared to PSRO -- a baseline empirical-game building algorithm, Dyna-PSRO is
found to compute lower regret solutions on partially observable general-sum
games. In our experiments, Dyna-PSRO also requires substantially fewer
experiences than PSRO, a key algorithmic advantage for settings where
collecting player-game interaction data is a cost-limiting factor.
- Abstract(参考訳): ゲームベースの意思決定は、エージェント間のワールドダイナミクスと戦略的相互作用の両方を推論する。
典型的には、これらの各側面を捉えた経験モデルが別々に学習され、使用される。
これらの要素を共同学習することで得られる可能性について検討する。ダイナミックスの世界モデルと戦略的相互作用の実証ゲームである。
実証ゲームは、戦略プロファイルの多様性によって引き起こされるゲームダイナミクスのより広範な考慮に向けて世界モデルを駆動する。
逆に、世界モデルは経験的なゲームをガイドし、計画を通じて新しい戦略を効率的に発見する。
実験ゲームと世界モデルを共同学習する新しいアルゴリズムDyna-PSROによって実現されたように,これらの利点をまず独立して示す。
ベースラインな経験ゲーム構築アルゴリズムであるPSROと比較して、Dyna-PSROは部分的に観測可能な汎用ゲームにおいて、低い後悔解を計算する。
実験では,プレイヤとプレイヤのインタラクションデータを収集する際のアルゴリズム上の利点として,PSROよりもはるかに少ないエクスペリエンスを必要とする。
関連論文リスト
- Towards a Unified View of Preference Learning for Large Language Models: A Survey [88.66719962576005]
大きな言語モデル(LLM)は、非常に強力な能力を示す。
成功するための重要な要因の1つは、LLMの出力を人間の好みに合わせることである。
選好学習のすべての戦略を、モデル、データ、フィードバック、アルゴリズムの4つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-09-04T15:11:55Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - ALYMPICS: LLM Agents Meet Game Theory -- Exploring Strategic
Decision-Making with AI Agents [77.34720446306419]
Alympicsは、ゲーム理論の研究にLarge Language Model (LLM)エージェントを利用する、体系的なシミュレーションフレームワークである。
Alympicsは、複雑なゲーム理論の問題を研究するための汎用的なプラットフォームを作成する。
論文 参考訳(メタデータ) (2023-11-06T16:03:46Z) - On a Connection between Differential Games, Optimal Control, and
Energy-based Models for Multi-Agent Interactions [0.13499500088995461]
差分ゲーム,最適制御,エネルギーベースモデルの関連性を示す。
この定式化に基づいて、この研究はエンド・ツー・エンドの学習アプリケーションを導入している。
シミュレーションされた移動ロボット歩行者インタラクションと実世界の自動運転データを用いた実験は、実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-08-31T08:30:11Z) - Game Theoretic Rating in N-player general-sum games with Equilibria [26.166859475522106]
そこで我々は,N-playerに適した新しいアルゴリズムを提案する。
これにより、平衡のような確立された解の概念を利用でき、複雑な戦略的相互作用を持つゲームにおける戦略を効率的に評価することができる。
論文 参考訳(メタデータ) (2022-10-05T12:33:03Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。