論文の概要: Offline Fictitious Self-Play for Competitive Games
- arxiv url: http://arxiv.org/abs/2403.00841v1
- Date: Thu, 29 Feb 2024 11:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:26:44.417397
- Title: Offline Fictitious Self-Play for Competitive Games
- Title(参考訳): 競合ゲームのためのオフライン架空のセルフプレイ
- Authors: Jingxiao Chen, Weiji Xie, Weinan Zhang, Yong yu, Ying Wen
- Abstract要約: Off-FSPは、競争ゲームのための最初のモデルなしオフラインRLアルゴリズムである。
本稿では,FSP(Off-FSP)について紹介する。
- 参考スコア(独自算出の注目度): 34.445740191223614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) has received significant interest due to
its ability to improve policies in previously collected datasets without online
interactions. Despite its success in the single-agent setting, offline
multi-agent RL remains a challenge, especially in competitive games. Firstly,
unaware of the game structure, it is impossible to interact with the opponents
and conduct a major learning paradigm, self-play, for competitive games.
Secondly, real-world datasets cannot cover all the state and action space in
the game, resulting in barriers to identifying Nash equilibrium (NE). To
address these issues, this paper introduces Off-FSP, the first practical
model-free offline RL algorithm for competitive games. We start by simulating
interactions with various opponents by adjusting the weights of the fixed
dataset with importance sampling. This technique allows us to learn best
responses to different opponents and employ the Offline Self-Play learning
framework. In this framework, we further implement Fictitious Self-Play (FSP)
to approximate NE. In partially covered real-world datasets, our methods show
the potential to approach NE by incorporating any single-agent offline RL
method. Experimental results in Leduc Hold'em Poker show that our method
significantly improves performances compared with state-of-the-art baselines.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションなしで以前に収集されたデータセットのポリシーを改善する能力により、大きな関心を集めている。
シングルエージェント設定での成功にもかかわらず、オフラインマルチエージェントRLは、特に競争ゲームにおいて課題である。
第一に、ゲーム構造に気付かず、対戦相手と対話し、対戦ゲームのための主要な学習パラダイムであるセルフプレイを実行することは不可能である。
第二に、現実世界のデータセットはゲームのすべての状態とアクション空間をカバーできないため、ナッシュ均衡(NE)を特定する障壁となる。
そこで本稿では,競争ゲームのためのモデルフリーオフラインrlアルゴリズムであるoff-fspを提案する。
まず,重み付けしたデータセットの重み付けを調整することで,様々な相手とのインタラクションをシミュレートすることから始める。
このテクニックにより、異なる対戦相手に対するベストレスポンスを学習し、オフラインの自己プレイ学習フレームワークを活用できます。
このフレームワークでは、NEを近似するためにFSP(Fictitious Self-Play)をさらに実装する。
実世界の部分的データセットでは, 単一エージェントのオフラインRL手法を組み込んでNEにアプローチする可能性を示した。
Leduc Hold'em Pokerの実験結果から,本手法は最先端のベースラインに比べて性能を著しく向上することが示された。
関連論文リスト
- Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks [59.50879251101105]
我々は、オフラインのRLとオフラインのMARLをカバーする、事前コンパイルされたデータセットの包括的なセットであるHokoffを提案する。
このデータは、Multiplayer Online Battle Arena(MOBA)ゲームとして認知されているHonor of Kingsに由来する。
また,ゲーム固有の階層的アクション空間に適した,新しいベースラインアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-20T05:38:50Z) - In-Context Exploiter for Extensive-Form Games [38.24471816329584]
In-Context Exploiter (ICE) という新しい手法を導入し、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に対戦相手を適応的に活用できる単一モデルを訓練する。
我々のICEアルゴリズムは、多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴データの収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントの訓練を含む。
論文 参考訳(メタデータ) (2024-08-10T14:59:09Z) - SEABO: A Simple Search-Based Method for Offline Imitation Learning [57.2723889718596]
オフライン強化学習(RL)は、静的なオフラインデータセットから学習できることから、多くの注目を集めている。
本稿では,SEABOをタグ付けした単純な検索に基づくオフラインIL手法を提案する。
この結果から,SEABOは1つの専門的軌道のみを考慮し,実効性を持つオフラインRLアルゴリズムに競合する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T08:48:01Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。