論文の概要: Prioritized Level Replay
- arxiv url: http://arxiv.org/abs/2010.03934v4
- Date: Sat, 12 Jun 2021 10:50:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:22:55.532091
- Title: Prioritized Level Replay
- Title(参考訳): 優先レベルリプレイ
- Authors: Minqi Jiang, Edward Grefenstette, Tim Rockt\"aschel
- Abstract要約: 次のトレーニングレベルを選択的にサンプリングするフレームワークである優先順位付きレベルリプレイ(PLR)を導入する。
PLRは、Procgen Benchmarkのサンプル効率と一般化を大幅に改善する。
- 参考スコア(独自算出の注目度): 24.980249597326985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Environments with procedurally generated content serve as important
benchmarks for testing systematic generalization in deep reinforcement
learning. In this setting, each level is an algorithmically created environment
instance with a unique configuration of its factors of variation. Training on a
prespecified subset of levels allows for testing generalization to unseen
levels. What can be learned from a level depends on the current policy, yet
prior work defaults to uniform sampling of training levels independently of the
policy. We introduce Prioritized Level Replay (PLR), a general framework for
selectively sampling the next training level by prioritizing those with higher
estimated learning potential when revisited in the future. We show TD-errors
effectively estimate a level's future learning potential and, when used to
guide the sampling procedure, induce an emergent curriculum of increasingly
difficult levels. By adapting the sampling of training levels, PLR
significantly improves sample efficiency and generalization on Procgen
Benchmark--matching the previous state-of-the-art in test return--and readily
combines with other methods. Combined with the previous leading method, PLR
raises the state-of-the-art to over 76% improvement in test return relative to
standard RL baselines.
- Abstract(参考訳): 手続き的に生成されたコンテンツを持つ環境は、深層強化学習における体系的一般化をテストする上で重要なベンチマークとなる。
この設定では、各レベルはアルゴリズムによって作成された環境インスタンスであり、その変動要因のユニークな構成を持つ。
事前定義されたレベルのサブセットのトレーニングは、テストの一般化を目に見えないレベルにすることができる。
レベルから学ぶことは、現在の方針に依存するが、事前の作業は、ポリシーとは独立してトレーニングレベルの統一的なサンプリングをデフォルトとする。
我々は,将来再考される場合,高い推定学習可能性を持つ者を優先順位付けすることで,次のトレーニングレベルを選択的にサンプリングするフレームワークである優先順位付けレベルリプレイ(PLR)を導入する。
本稿では,TDエラーが学習能力を効果的に推定し,サンプリング手順の導出に使用すると,ますます困難なカリキュラムを創出することを示す。
トレーニングレベルをサンプリングすることで、plrはサンプルの効率を大幅に改善し、procgenベンチマークの一般化 -- テストの戻り状態とマッチする -- を一般化し、他の手法と容易に組み合わせることができる。
以前の先行手法と組み合わせることで、plrは標準rlベースラインと比較して76%以上のテストリターン向上を実現している。
関連論文リスト
- DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Few-Shot Class-Incremental Learning with Prior Knowledge [94.95569068211195]
本稿では,事前学習モデルの一般化能力を高めるために,先行知識を用いた学習(LwPK)を提案する。
実験結果から,LwPKは破滅的忘れ込みに対するモデルレジリエンスを効果的に向上させることが示された。
論文 参考訳(メタデータ) (2024-02-02T08:05:35Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Policy-Gradient Training of Language Models for Ranking [29.940468096858066]
テキスト検索は、意思決定の事実知識を言語処理パイプラインに組み込む上で重要な役割を担っている。
現在の最先端テキスト検索モデルは、事前訓練された大規模言語モデル(LLM)を活用して、競争性能を達成する。
我々は、LLMをPlanet-Luceランキングポリシーとしてインスタンス化することでランク付けを学ぶ新しいトレーニングアルゴリズムであるNeural PG-RANKを紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:55:23Z) - How the level sampling process impacts zero-shot generalisation in deep
reinforcement learning [12.79149059358717]
深い強化学習を通じて訓練された自律エージェントが広く採用されるのを防ぐ重要な制限は、新しい環境に一般化する能力の制限である。
本研究では,RLエージェントのゼロショット一般化能力に,個別環境インスタンスの非一様サンプリング戦略がどう影響するかを検討する。
論文 参考訳(メタデータ) (2023-10-05T12:08:12Z) - Isolation and Impartial Aggregation: A Paradigm of Incremental Learning
without Interference [61.11137714507445]
本稿では,インクリメンタルラーニングの段階におけるパフォーマンスの不均衡について論じる。
ステージアイソレーションに基づくインクリメンタルラーニングフレームワークを提案する。
提案手法を4つの大規模ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-11-29T06:57:48Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Simple Control Baselines for Evaluating Transfer Learning [1.0499611180329802]
我々は,伝達学習のパフォーマンスを定量化し,伝達することを目的とした評価基準を共有している。
自己教師型学習に関するいくつかの基本的な質問について,実証的研究を例に紹介する。
論文 参考訳(メタデータ) (2022-02-07T17:26:26Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。