論文の概要: Offline Equilibrium Finding
- arxiv url: http://arxiv.org/abs/2207.05285v1
- Date: Tue, 12 Jul 2022 03:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:25:58.806474
- Title: Offline Equilibrium Finding
- Title(参考訳): オフライン平衡探索
- Authors: Shuxin Li, Xinrun Wang, Jakub Cerny, Youzhi Zhang, Hau Chan, Bo An
- Abstract要約: オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
- 参考スコア(独自算出の注目度): 40.08360411502593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (Offline RL) is an emerging field that has
recently begun gaining attention across various application domains due to its
ability to learn behavior from earlier collected datasets. Using logged data is
imperative when further interaction with the environment is expensive
(computationally or otherwise), unsafe, or entirely unfeasible. Offline RL
proved very successful, paving a path to solving previously intractable
real-world problems, and we aim to generalize this paradigm to a multi-agent or
multiplayer-game setting. Very little research has been done in this area, as
the progress is hindered by the lack of standardized datasets and meaningful
benchmarks. In this work, we coin the term offline equilibrium finding (OEF) to
describe this area and construct multiple datasets consisting of strategies
collected across a wide range of games using several established methods. We
also propose a benchmark method -- an amalgamation of a behavior-cloning and a
model-based algorithm. Our two model-based algorithms -- OEF-PSRO and OEF-CFR
-- are adaptations of the widely-used equilibrium finding algorithms Deep CFR
and PSRO in the context of offline learning. In the empirical part, we evaluate
the performance of the benchmark algorithms on the constructed datasets. We
hope that our efforts may help to accelerate research in large-scale
equilibrium finding. Datasets and code are available at
https://github.com/SecurityGames/oef.
- Abstract(参考訳): オフライン強化学習(オフライン強化学習、オフライン rl)は、最近さまざまなアプリケーションドメインで注目を集め始めている新興分野である。
ログデータの使用は、環境とのさらなるインタラクションが高価である場合(計算上またはその他の場合)、安全でない場合、あるいは完全に実現不可能である。
オフラインrlは非常に成功し、従来の難解な実世界の問題を解決する道筋を拓き、このパラダイムをマルチエージェントまたはマルチプレイヤーゲームに一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークが欠如しているため、研究はほとんど行われていない。
本研究では,この領域を記述するためにオフライン平衡探索(OEF)という用語を作成し,複数の確立された手法を用いて,幅広いゲームで収集された戦略からなる複数のデータセットを構築する。
また,行動閉ざしアルゴリズムとモデルベースアルゴリズムのアマルガメーションというベンチマーク手法を提案する。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習におけるDeep CFRとPSROの適応である。
実験では、構築したデータセットにおけるベンチマークアルゴリズムの性能を評価する。
我々の努力が大規模均衡発見の研究を加速させることを願っている。
データセットとコードはhttps://github.com/securitygames/oefで入手できる。
関連論文リスト
- Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。