論文の概要: Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks
- arxiv url: http://arxiv.org/abs/2408.10556v1
- Date: Tue, 20 Aug 2024 05:38:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:03:52.600460
- Title: Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks
- Title(参考訳): Hokoff: キングスの名誉とオフライン強化学習ベンチマークによるリアルゲームデータセット
- Authors: Yun Qu, Boyuan Wang, Jianzhun Shao, Yuhang Jiang, Chen Chen, Zhenbin Ye, Lin Liu, Junfeng Yang, Lin Lai, Hongyang Qin, Minwen Deng, Juchao Zhuo, Deheng Ye, Qiang Fu, Wei Yang, Guang Yang, Lanxiao Huang, Xiangyang Ji,
- Abstract要約: 我々は、オフラインのRLとオフラインのMARLをカバーする、事前コンパイルされたデータセットの包括的なセットであるHokoffを提案する。
このデータは、Multiplayer Online Battle Arena(MOBA)ゲームとして認知されているHonor of Kingsに由来する。
また,ゲーム固有の階層的アクション空間に適した,新しいベースラインアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 59.50879251101105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Offline Reinforcement Learning (RL) and Offline Multi-Agent Reinforcement Learning (MARL) critically depends on the availability of high-quality, pre-collected offline datasets that represent real-world complexities and practical applications. However, existing datasets often fall short in their simplicity and lack of realism. To address this gap, we propose Hokoff, a comprehensive set of pre-collected datasets that covers both offline RL and offline MARL, accompanied by a robust framework, to facilitate further research. This data is derived from Honor of Kings, a recognized Multiplayer Online Battle Arena (MOBA) game known for its intricate nature, closely resembling real-life situations. Utilizing this framework, we benchmark a variety of offline RL and offline MARL algorithms. We also introduce a novel baseline algorithm tailored for the inherent hierarchical action space of the game. We reveal the incompetency of current offline RL approaches in handling task complexity, generalization and multi-task learning.
- Abstract(参考訳): オフライン強化学習(RL)とオフラインマルチエージェント強化学習(MARL)の進歩は、現実世界の複雑さと実践的な応用を表す高品質で事前コンパイルされたオフラインデータセットの可用性に依存している。
しかし、既存のデータセットは、単純さとリアリズムの欠如に欠けることが多い。
このギャップに対処するため、我々は、オフラインのRLとオフラインのMARLの両方をカバーする、事前コンパイルされたデータセットの包括的なセットであるHokoffを提案する。
このデータは、Multiplayer Online Battle Arena(MOBA)ゲームで、その複雑な性質で知られており、現実の状況によく似ている。
このフレームワークを利用することで、さまざまなオフラインRLおよびオフラインMARLアルゴリズムをベンチマークする。
また,ゲーム固有の階層的アクション空間に適した,新しいベースラインアルゴリズムを導入する。
タスク複雑性,一般化,マルチタスク学習における現在のオフラインRLアプローチの非効率性を明らかにする。
関連論文リスト
- ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories [27.5648276335047]
報酬の少ない自律エージェントの訓練は、オンライン強化学習(RL)における長年の問題である
本稿では、オフラインデータを利用した適応軌道微分器(ATraDiff)と呼ばれる生成拡散モデル学習手法を提案する。
ATraDiffは、様々な環境における最先端のパフォーマンスを一貫して達成しており、特に複雑な設定の改善が顕著である。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Offline Fictitious Self-Play for Competitive Games [34.445740191223614]
Off-FSPは、競争ゲームのための最初のモデルなしオフラインRLアルゴリズムである。
本稿では,FSP(Off-FSP)について紹介する。
論文 参考訳(メタデータ) (2024-02-29T11:36:48Z) - H2O+: An Improved Framework for Hybrid Offline-and-Online RL with
Dynamics Gaps [31.608209251850553]
我々はH2O+と呼ばれる新しいアルゴリズムを開発し、オフラインおよびオンライン学習の様々な選択肢を橋渡しする優れた柔軟性を提供します。
先進的なクロスドメインとオフラインのRLアルゴリズムよりも優れた性能と柔軟性を示す。
論文 参考訳(メタデータ) (2023-09-22T08:58:22Z) - CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning [31.49713012907863]
textbfCalibrated textbfLatent gtextbfUidanctextbfE (CLUE)を導入する。
スパース逆オフラインRLタスク、オフライン模倣学習(IL)タスク、教師なしオフラインRLタスクにおいて、エキスパート主導の本質的な報酬をインスタンス化する。
論文 参考訳(メタデータ) (2023-06-23T09:57:50Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid
Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。
我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。
提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文 参考訳(メタデータ) (2023-05-17T15:17:23Z) - Offline Equilibrium Finding [40.08360411502593]
オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
論文 参考訳(メタデータ) (2022-07-12T03:41:06Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。