論文の概要: Measuring Sample Efficiency and Generalization in Reinforcement Learning
Benchmarks: NeurIPS 2020 Procgen Benchmark
- arxiv url: http://arxiv.org/abs/2103.15332v1
- Date: Mon, 29 Mar 2021 05:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 04:23:27.190639
- Title: Measuring Sample Efficiency and Generalization in Reinforcement Learning
Benchmarks: NeurIPS 2020 Procgen Benchmark
- Title(参考訳): 強化学習ベンチマークにおけるサンプル効率と一般化の測定:NeurIPS 2020 Procgen Benchmark
- Authors: Sharada Mohanty, Jyotish Poonganam, Adrien Gaidon, Andrey Kolobov,
Blake Wulfe, Dipam Chakraborty, Gra\v{z}vydas \v{S}emetulskis, Jo\~ao
Schapke, Jonas Kubilius, Jurgis Pa\v{s}ukonis, Linas Klimas, Matthew
Hausknecht, Patrick MacAlpine, Quang Nhat Tran, Thomas Tumiel, Xiaocheng
Tang, Xinwei Chen, Christopher Hesse, Jacob Hilton, William Hebgen Guss,
Sahika Genc, John Schulman, Karl Cobbe
- Abstract要約: NeurIPS 2020 Procgen Competitionは、強化学習におけるサンプル効率と一般化を測定するタスクを明確に定義した集中型ベンチマークとして設計されています。
本稿では,強化学習におけるサンプル効率と一般化の測定に役立つ強化学習のための集中型ベンチマークの設計について述べる。
- 参考スコア(独自算出の注目度): 22.569342580049163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The NeurIPS 2020 Procgen Competition was designed as a centralized benchmark
with clearly defined tasks for measuring Sample Efficiency and Generalization
in Reinforcement Learning. Generalization remains one of the most fundamental
challenges in deep reinforcement learning, and yet we do not have enough
benchmarks to measure the progress of the community on Generalization in
Reinforcement Learning. We present the design of a centralized benchmark for
Reinforcement Learning which can help measure Sample Efficiency and
Generalization in Reinforcement Learning by doing end to end evaluation of the
training and rollout phases of thousands of user submitted code bases in a
scalable way. We designed the benchmark on top of the already existing Procgen
Benchmark by defining clear tasks and standardizing the end to end evaluation
setups. The design aims to maximize the flexibility available for researchers
who wish to design future iterations of such benchmarks, and yet imposes
necessary practical constraints to allow for a system like this to scale. This
paper presents the competition setup and the details and analysis of the top
solutions identified through this setup in context of 2020 iteration of the
competition at NeurIPS.
- Abstract(参考訳): NeurIPS 2020 Procgen Competitionは、強化学習におけるサンプル効率と一般化を測定するための明確に定義されたタスクを備えた集中型ベンチマークとして設計された。
一般化は、深い強化学習における最も基本的な課題の1つだが、強化学習における一般化に関するコミュニティの進捗を測る十分なベンチマークはない。
本稿では,何千ものユーザ投稿コードベースのトレーニングとロールアウトフェーズの終末評価を行うことで,強化学習におけるサンプル効率と一般化の計測を支援する,強化学習のための集中型ベンチマークの設計を提案する。
私たちは、明確なタスクを定義し、エンドツーエンドの評価設定を標準化することで、既存のProcgen Benchmarkの上にベンチマークを設計しました。
この設計は、このようなベンチマークの将来のイテレーションを設計したい研究者にとって利用可能な柔軟性を最大化することを目的としている。
本稿では,2020年のneuripsコンペティションにおいて,このコンペティションによって特定された最上位ソリューションのコンペティション設定と詳細と分析について述べる。
関連論文リスト
- UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling [22.885385107905222]
我々は50以上の視覚言語モデル(VLM)ベンチマークの統一実装であるUniBenchを紹介する。
約60の公開ビジョン言語モデルを評価することで,UniBenchの進歩度測定に有効であることを示す。
また、59モデルにまたがる50以上のベンチマークと比較の完全なセットと、1つのGPUで5分で実行されるベンチマークの蒸留セットを備えた、簡単に実行できるUniBenchコードベースもリリースしました。
論文 参考訳(メタデータ) (2024-08-09T01:41:05Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Continual Learning for Human State Monitoring [20.8311956676327]
人体状態モニタリングのための新しいCLベンチマークを2つ提案する。
我々は、新しい科目が継続的に追加される現実世界の環境を反映するベンチマークを慎重に設計した。
ベンチマークの結果から,一般的なCL戦略が,忘れを軽減できるかどうかを実証的に評価した。
論文 参考訳(メタデータ) (2022-06-29T19:23:13Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - FLEX: Unifying Evaluation for Few-Shot NLP [17.425495611344786]
我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。
最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。
また、数ショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
論文 参考訳(メタデータ) (2021-07-15T07:37:06Z) - Prioritized Level Replay [24.980249597326985]
次のトレーニングレベルを選択的にサンプリングするフレームワークである優先順位付きレベルリプレイ(PLR)を導入する。
PLRは、Procgen Benchmarkのサンプル効率と一般化を大幅に改善する。
論文 参考訳(メタデータ) (2020-10-08T12:46:57Z) - Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing [2.5137859989323537]
多数のポリシーネットワークは、パラメータをランダムに推測して生成され、その後、ベンチマークタスクで評価される。
本手法は, 環境の複雑さを分離し, 課題の種類を明確にし, 課題の難易度を統計的に解析するための適切な基盤を提供する。
我々は、OpenAI Gymの様々な古典的な制御ベンチマークでアプローチをテストし、そこでは、訓練されていない小さなネットワークが様々なタスクに対して堅牢なベースラインを提供することを示す。
論文 参考訳(メタデータ) (2020-04-16T15:32:52Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。