論文の概要: Reliable validation of Reinforcement Learning Benchmarks
- arxiv url: http://arxiv.org/abs/2203.01075v1
- Date: Wed, 2 Mar 2022 12:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 21:55:42.469401
- Title: Reliable validation of Reinforcement Learning Benchmarks
- Title(参考訳): 強化学習ベンチマークの信頼性検証
- Authors: Matthias M\"uller-Brockhausen, Aske Plaat, Mike Preuss
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、ゲームAIとAI全般において、最もダイナミックな研究分野の1つである。
Atariのような異なるアルゴリズムを比較するためにスコアが使用されるベンチマーク環境はたくさんあります。
実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。
- 参考スコア(独自算出の注目度): 1.2031796234206134
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement Learning (RL) is one of the most dynamic research areas in Game
AI and AI as a whole, and a wide variety of games are used as its prominent
test problems. However, it is subject to the replicability crisis that
currently affects most algorithmic AI research. Benchmarking in Reinforcement
Learning could be improved through verifiable results. There are numerous
benchmark environments whose scores are used to compare different algorithms,
such as Atari. Nevertheless, reviewers must trust that figures represent
truthful values, as it is difficult to reproduce an exact training curve. We
propose improving this situation by providing access to the original
experimental data to validate study results. To that end, we rely on the
concept of minimal traces. These allow re-simulation of action sequences in
deterministic RL environments and, in turn, enable reviewers to verify, re-use,
and manually inspect experimental results without needing large compute
clusters. It also permits validation of presented reward graphs, an inspection
of individual episodes, and re-use of result data (baselines) for proper
comparison in follow-up papers. We offer plug-and-play code that works with Gym
so that our measures fit well in the existing RL and reproducibility
eco-system. Our approach is freely available, easy to use, and adds minimal
overhead, as minimal traces allow a data compression ratio of up to $\approx
10^4:1$ (94GB to 8MB for Atari Pong) compared to a regular MDP trace used in
offline RL datasets. The paper presents proof-of-concept results for a variety
of games.
- Abstract(参考訳): 強化学習(rl)はゲームaiとai全般における最もダイナミックな研究分野の1つであり、その顕著なテスト問題として多種多様なゲームが使われている。
しかし、現在のアルゴリズムAI研究に影響を及ぼす複製可能性の危機にさらされている。
強化学習におけるベンチマークは検証可能な結果によって改善される可能性がある。
atariなど、さまざまなアルゴリズムを比較するためにスコアを使用するベンチマーク環境は数多く存在する。
それでもレビュアーは、正確なトレーニング曲線を再現することは困難であるため、数字が真理値を表すと信じなければならない。
実験結果の検証を行うために,元の実験データへのアクセスを提供することにより,この状況を改善することを提案する。
そのため、最小限のトレースの概念に依存しています。
これらは決定論的RL環境におけるアクションシーケンスの再シミュレーションを可能にし、その結果、大規模な計算クラスタを必要とせずに、レビューアが実験結果の検証、再利用、手動による検査を可能にする。
また、提示された報酬グラフの検証、個々のエピソードの検査、結果データ(ベースライン)の再使用をフォローアップ論文で適切に比較することができる。
我々は,既存のRLと再現性エコシステムに適合するように,Gymで動作するプラグアンドプレイコードを提供する。
最小限のトレースでは、オフラインのRLデータセットで使用される通常のMDPトレースと比較して、最大$\approx 10^4:1$ (94GBから8MB)のデータ圧縮比が可能です。
本稿では,様々なゲームに対する概念実証結果を提案する。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement
Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。
Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。
それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文 参考訳(メタデータ) (2024-02-05T14:32:00Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Offline Equilibrium Finding [40.08360411502593]
オフラインRLをマルチエージェントまたはマルチプレイヤーゲーム設定に一般化することを目指している。
この領域では、標準化されたデータセットと意味のあるベンチマークの欠如によって、進捗が妨げられているため、非常に少ない研究がなされている。
OEF-PSROとOEF-CFRの2つのモデルベースアルゴリズムは、オフライン学習の文脈で広く使われている平衡探索アルゴリズムDeep CFRとPSROの適応である。
論文 参考訳(メタデータ) (2022-07-12T03:41:06Z) - Weakly Supervised Scene Text Detection using Deep Reinforcement Learning [6.918282834668529]
強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
論文 参考訳(メタデータ) (2022-01-13T10:15:42Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。