論文の概要: Offline Fictitious Self-Play for Competitive Games
- arxiv url: http://arxiv.org/abs/2403.00841v2
- Date: Tue, 14 Oct 2025 12:01:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:31.890902
- Title: Offline Fictitious Self-Play for Competitive Games
- Title(参考訳): 競争力のあるゲームのためのオフライン架空のセルフプレイ
- Authors: Jingxiao Chen, Weiji Xie, Weinan Zhang, Yong yu, Ying Wen,
- Abstract要約: オフライン強化学習(RL)は、オンラインインタラクションなしで、固定データセットからポリシーの改善を可能にする。
本稿では,FF-FSPを提案する。
マトリックスゲーム、広角ポーカー、ボードゲームの実験は、OF-FSPが最先端のベースラインよりもはるかに低いエクスプロイラビリティを実現することを示した。
- 参考スコア(独自算出の注目度): 28.019581365721677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) enables policy improvement from fixed datasets without online interactions, making it highly suitable for real-world applications lacking efficient simulators. Despite its success in the single-agent setting, offline multi-agent RL remains a challenge, especially in competitive games. Firstly, unaware of the game structure, it is impossible to interact with the opponents and conduct a major learning paradigm, self-play, for competitive games. Secondly, real-world datasets cannot cover all the state and action space in the game, resulting in barriers to identifying Nash equilibrium (NE). To address these issues, this paper introduces OFF-FSP, the first practical model-free offline RL algorithm for competitive games. We start by simulating interactions with various opponents by adjusting the weights of the fixed dataset with importance sampling. This technique allows us to learn the best responses to different opponents and employ the Offline Self-Play learning framework. To overcome the challenge of partial coverage, we combine the single-agent offline RL method with Fictitious Self-Play (FSP) to approximate NE by constraining the approximate best responses away from out-of-distribution actions. Experiments on matrix games, extensive-form poker, and board games demonstrate that OFF-FSP achieves significantly lower exploitability than state-of-the-art baselines. Finally, we validate OFF-FSP on a real-world human-robot competitive task, demonstrating its potential for solving complex, hard-to-simulate real-world problems.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションのない固定データセットからポリシーの改善を可能にし、効率的なシミュレータを欠いた現実世界のアプリケーションに非常に適している。
シングルエージェント設定での成功にもかかわらず、オフラインマルチエージェントRLは、特に競争ゲームにおいて課題である。
第一に、ゲーム構造に気付かず、対戦相手と対話し、対戦ゲームのための主要な学習パラダイムであるセルフプレイを実行することは不可能である。
第二に、現実世界のデータセットはゲームのすべての状態とアクション空間をカバーできないため、ナッシュ均衡(NE)を識別する障壁となる。
これらの問題に対処するため,本研究では,FF-FSPを提案する。
まず,重み付けしたデータセットの重み付けを調整することで,様々な相手とのインタラクションをシミュレートすることから始める。
この技術は、異なる相手に対する最良の反応を学習し、オフラインのセルフプレイ学習フレームワークを使用することを可能にする。
部分的カバレッジの課題を克服するため、単一エージェントのオフラインRL法とFSP(Fictitious Self-Play)を組み合わせてNEを近似する。
マトリックスゲーム、広角ポーカー、ボードゲームの実験は、OF-FSPが最先端のベースラインよりもはるかに低いエクスプロイラビリティを実現することを示した。
最後に、FF-FSPを実世界の人間ロボット競争課題に適用し、複雑でシミュレーションの難しい現実の問題を解く可能性を実証する。
関連論文リスト
- Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks [59.50879251101105]
我々は、オフラインのRLとオフラインのMARLをカバーする、事前コンパイルされたデータセットの包括的なセットであるHokoffを提案する。
このデータは、Multiplayer Online Battle Arena(MOBA)ゲームとして認知されているHonor of Kingsに由来する。
また,ゲーム固有の階層的アクション空間に適した,新しいベースラインアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-20T05:38:50Z) - In-Context Exploiter for Extensive-Form Games [38.24471816329584]
In-Context Exploiter (ICE) という新しい手法を導入し、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に対戦相手を適応的に活用できる単一モデルを訓練する。
我々のICEアルゴリズムは、多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴データの収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントの訓練を含む。
論文 参考訳(メタデータ) (2024-08-10T14:59:09Z) - SEABO: A Simple Search-Based Method for Offline Imitation Learning [57.2723889718596]
オフライン強化学習(RL)は、静的なオフラインデータセットから学習できることから、多くの注目を集めている。
本稿では,SEABOをタグ付けした単純な検索に基づくオフラインIL手法を提案する。
この結果から,SEABOは1つの専門的軌道のみを考慮し,実効性を持つオフラインRLアルゴリズムに競合する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T08:48:01Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。