論文の概要: Offline Equilibrium Finding
- arxiv url: http://arxiv.org/abs/2207.05285v1
- Date: Tue, 12 Jul 2022 03:41:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:25:58.806474
- Title: Offline Equilibrium Finding
- Title(参考訳): オフライン平衡探索
- Authors: Shuxin Li, Xinrun Wang, Jakub Cerny, Youzhi Zhang, Hau Chan, Bo An
- Abstract要約: オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
- 参考スコア(独自算出の注目度): 40.08360411502593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (Offline RL) is an emerging field that has
recently begun gaining attention across various application domains due to its
ability to learn behavior from earlier collected datasets. Using logged data is
imperative when further interaction with the environment is expensive
(computationally or otherwise), unsafe, or entirely unfeasible. Offline RL
proved very successful, paving a path to solving previously intractable
real-world problems, and we aim to generalize this paradigm to a multi-agent or
multiplayer-game setting. Very little research has been done in this area, as
the progress is hindered by the lack of standardized datasets and meaningful
benchmarks. In this work, we coin the term offline equilibrium finding (OEF) to
describe this area and construct multiple datasets consisting of strategies
collected across a wide range of games using several established methods. We
also propose a benchmark method -- an amalgamation of a behavior-cloning and a
model-based algorithm. Our two model-based algorithms -- OEF-PSRO and OEF-CFR
-- are adaptations of the widely-used equilibrium finding algorithms Deep CFR
and PSRO in the context of offline learning. In the empirical part, we evaluate
the performance of the benchmark algorithms on the constructed datasets. We
hope that our efforts may help to accelerate research in large-scale
equilibrium finding. Datasets and code are available at
https://github.com/SecurityGames/oef.
- Abstract(参考訳): オフライン強化学習(オフライン強化学習、オフライン rl)は、最近さまざまなアプリケーションドメインで注目を集め始めている新興分野である。
ログデータの使用は、環境とのさらなるインタラクションが高価である場合(計算上またはその他の場合)、安全でない場合、あるいは完全に実現不可能である。
オフラインrlは非常に成功し、従来の難解な実世界の問題を解決する道筋を拓き、このパラダイムをマルチエージェントまたはマルチプレイヤーゲームに一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークが欠如しているため、研究はほとんど行われていない。
本研究では,この領域を記述するためにオフライン平衡探索(OEF)という用語を作成し,複数の確立された手法を用いて,幅広いゲームで収集された戦略からなる複数のデータセットを構築する。
また,行動閉ざしアルゴリズムとモデルベースアルゴリズムのアマルガメーションというベンチマーク手法を提案する。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習におけるDeep CFRとPSROの適応である。
実験では、構築したデータセットにおけるベンチマークアルゴリズムの性能を評価する。
我々の努力が大規模均衡発見の研究を加速させることを願っている。
データセットとコードはhttps://github.com/securitygames/oefで入手できる。
関連論文リスト
- OGBench: Benchmarking Offline Goal-Conditioned RL [72.00291801676684]
オフライン目標条件強化学習(GCRL)は強化学習における大きな問題である。
オフラインゴール条件RLにおけるアルゴリズム研究のための,新しい高品質なベンチマークであるOGBenchを提案する。
論文 参考訳(メタデータ) (2024-10-26T06:06:08Z) - Scalable Offline Reinforcement Learning for Mean Field Games [6.8267158622784745]
Off-MMDは、純粋なオフラインデータを用いて平均フィールドゲームにおける平衡ポリシーを近似する新しい平均フィールドRLアルゴリズムである。
我々のアルゴリズムは複雑な環境にスケールし、群衆探索やナビゲーションといったベンチマークタスクで強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-23T14:16:34Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Bridging the Gap Between Offline and Online Reinforcement Learning
Evaluation Methodologies [6.303272140868826]
強化学習(Reinforcement Learning, RL)は、大規模な状態と行動空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。
現在の深層RLアルゴリズムは、学習に膨大な量の環境相互作用を必要とする。
オフラインのRLアルゴリズムは、既存のログデータから学習プロセスをブートストラップすることでこの問題に対処しようとする。
論文 参考訳(メタデータ) (2022-12-15T20:36:10Z) - A Survey on Offline Reinforcement Learning: Taxonomy, Review, and Open
Problems [0.0]
強化学習(RL)は、急速に人気が高まっている。
高いコストと環境との相互作用の危険性のため、RLにはアクセスできない領域がまだ広い範囲にある。
オフラインRLは、以前に収集されたインタラクションの静的データセットからのみ学習するパラダイムである。
論文 参考訳(メタデータ) (2022-03-02T20:05:11Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。