論文の概要: Offline Fictitious Self-Play for Competitive Games
- arxiv url: http://arxiv.org/abs/2403.00841v1
- Date: Thu, 29 Feb 2024 11:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:26:44.417397
- Title: Offline Fictitious Self-Play for Competitive Games
- Title(参考訳): 競合ゲームのためのオフライン架空のセルフプレイ
- Authors: Jingxiao Chen, Weiji Xie, Weinan Zhang, Yong yu, Ying Wen
- Abstract要約: Off-FSPは、競争ゲームのための最初のモデルなしオフラインRLアルゴリズムである。
本稿では,FSP(Off-FSP)について紹介する。
- 参考スコア(独自算出の注目度): 34.445740191223614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) has received significant interest due to
its ability to improve policies in previously collected datasets without online
interactions. Despite its success in the single-agent setting, offline
multi-agent RL remains a challenge, especially in competitive games. Firstly,
unaware of the game structure, it is impossible to interact with the opponents
and conduct a major learning paradigm, self-play, for competitive games.
Secondly, real-world datasets cannot cover all the state and action space in
the game, resulting in barriers to identifying Nash equilibrium (NE). To
address these issues, this paper introduces Off-FSP, the first practical
model-free offline RL algorithm for competitive games. We start by simulating
interactions with various opponents by adjusting the weights of the fixed
dataset with importance sampling. This technique allows us to learn best
responses to different opponents and employ the Offline Self-Play learning
framework. In this framework, we further implement Fictitious Self-Play (FSP)
to approximate NE. In partially covered real-world datasets, our methods show
the potential to approach NE by incorporating any single-agent offline RL
method. Experimental results in Leduc Hold'em Poker show that our method
significantly improves performances compared with state-of-the-art baselines.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションなしで以前に収集されたデータセットのポリシーを改善する能力により、大きな関心を集めている。
シングルエージェント設定での成功にもかかわらず、オフラインマルチエージェントRLは、特に競争ゲームにおいて課題である。
第一に、ゲーム構造に気付かず、対戦相手と対話し、対戦ゲームのための主要な学習パラダイムであるセルフプレイを実行することは不可能である。
第二に、現実世界のデータセットはゲームのすべての状態とアクション空間をカバーできないため、ナッシュ均衡(NE)を特定する障壁となる。
そこで本稿では,競争ゲームのためのモデルフリーオフラインrlアルゴリズムであるoff-fspを提案する。
まず,重み付けしたデータセットの重み付けを調整することで,様々な相手とのインタラクションをシミュレートすることから始める。
このテクニックにより、異なる対戦相手に対するベストレスポンスを学習し、オフラインの自己プレイ学習フレームワークを活用できます。
このフレームワークでは、NEを近似するためにFSP(Fictitious Self-Play)をさらに実装する。
実世界の部分的データセットでは, 単一エージェントのオフラインRL手法を組み込んでNEにアプローチする可能性を示した。
Leduc Hold'em Pokerの実験結果から,本手法は最先端のベースラインに比べて性能を著しく向上することが示された。
関連論文リスト
- SEABO: A Simple Search-Based Method for Offline Imitation Learning [57.2723889718596]
オフライン強化学習(RL)は、静的なオフラインデータセットから学習できることから、多くの注目を集めている。
本稿では,SEABOをタグ付けした単純な検索に基づくオフラインIL手法を提案する。
この結果から,SEABOは1つの専門的軌道のみを考慮し,実効性を持つオフラインRLアルゴリズムに競合する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T08:48:01Z) - Guarantees for Self-Play in Multiplayer Games via Polymatrix
Decomposability [2.2636685010313364]
セルフプレイ(Self-play)は、学習アルゴリズムが自分自身のコピーと対話して学習するマルチエージェントシステムにおける機械学習のテクニックである。
両プレイヤーの定数ゲームでは、ナッシュ均衡に達するセルフプレイが保証され、ポストトレーニング中の対戦相手に対して良好に機能する戦略が作成できることを示す。
本研究は,マルチプレイヤーゲームの構造的特性を初めて同定し,多種多様なセルフプレイアルゴリズムによって生成される戦略の性能保証を実現する。
論文 参考訳(メタデータ) (2023-10-17T18:33:21Z) - Fictitious Cross-Play: Learning Global Nash Equilibrium in Mixed
Cooperative-Competitive Games [14.979239870856535]
セルフプレイ(SP)は、競争ゲームを解くための一般的な強化学習フレームワークである。
本研究では,両フレームワークの利点を継承する新しいアルゴリズムであるFctitious Cross-Play (FXP) を開発する。
論文 参考訳(メタデータ) (2023-10-05T07:19:33Z) - Making Offline RL Online: Collaborative World Models for Offline Visual
Reinforcement Learning [99.59728624855566]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。