論文の概要: Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning
Environments
- arxiv url: http://arxiv.org/abs/2205.07015v2
- Date: Tue, 17 May 2022 01:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 04:34:50.329536
- Title: Cliff Diving: Exploring Reward Surfaces in Reinforcement Learning
Environments
- Title(参考訳): Cliff Diving:強化学習環境におけるリワードサーフェスを探る
- Authors: Ryan Sullivan, J. K. Terry, Benjamin Black, John P. Dickerson
- Abstract要約: この研究は、ギムで最も広く使われている強化学習環境27の報酬面と関連する視覚化を提示する。
また,多くの普及型強化学習環境において,「クリフ」が頻発していることも初めて示された。
- 参考スコア(独自算出の注目度): 23.337088238344567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visualizing optimization landscapes has led to many fundamental insights in
numeric optimization, and novel improvements to optimization techniques.
However, visualizations of the objective that reinforcement learning optimizes
(the "reward surface") have only ever been generated for a small number of
narrow contexts. This work presents reward surfaces and related visualizations
of 27 of the most widely used reinforcement learning environments in Gym for
the first time. We also explore reward surfaces in the policy gradient
direction and show for the first time that many popular reinforcement learning
environments have frequent "cliffs" (sudden large drops in expected return). We
demonstrate that A2C often "dives off" these cliffs into low reward regions of
the parameter space while PPO avoids them, confirming a popular intuition for
PPO's improved performance over previous methods. We additionally introduce a
highly extensible library that allows researchers to easily generate these
visualizations in the future. Our findings provide new intuition to explain the
successes and failures of modern RL methods, and our visualizations concretely
characterize several failure modes of reinforcement learning agents in novel
ways.
- Abstract(参考訳): 最適化のランドスケープを視覚化することで、数値最適化に関する基本的な洞察が生まれ、最適化テクニックが新しくなった。
しかし、強化学習が最適化する目的の可視化("reward surface")は、ごく少数の狭い文脈でしか生成されていない。
この研究は、ギムで最も広く使われている強化学習環境27の報酬面と関連する視覚化を初めて提示する。
また,政策勾配方向の報奨面についても検討し,多くの強化学習環境が頻繁な「崖(cliffs)」を持っていることを初めて示した。
a2cはこれらの崖をパラメータ空間の低報酬領域に「分割」することが多いが、ppoはそれを回避し、以前の方法よりもppoの性能が向上したという一般的な直観を確認している。
さらに,将来,これらの視覚化を簡単に生成できる拡張性の高いライブラリも導入する。
本研究は,最新のrl手法の成功と失敗を説明するための新たな直感的考察と,強化学習エージェントのいくつかの障害モードを,新しい方法で具体的に特徴付けるものである。
関連論文リスト
- Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。
新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。
新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文 参考訳(メタデータ) (2024-01-03T07:59:17Z) - Simple Noisy Environment Augmentation for Reinforcement Learning [0.0]
本稿では,雑音による強化学習環境の強化を目的とした汎用ラッパーの集合について検討する。
具体的には、状態、報酬、遷移ダイナミクスに関する拡張に集中する。
3つのRLアルゴリズムを用いて,ラッパーが戻り値に与える影響を実験的に検討した。
論文 参考訳(メタデータ) (2023-05-04T14:45:09Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Deep Learning for Face Anti-Spoofing: A Survey [74.42603610773931]
対面防止(FAS)は、プレゼンテーションアタック(PA)から顔認識システムを保護する上で重要な役割を担っているため、近年注目を集めている。
論文 参考訳(メタデータ) (2021-06-28T19:12:00Z) - RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。
最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文 参考訳(メタデータ) (2021-06-08T03:30:50Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Decaying Clipping Range in Proximal Policy Optimization [0.0]
PPO(Proximal Policy Optimization)は、強化学習で最も広く使用されているアルゴリズムの1つです。
その成功の鍵は、クリッピングメカニズムによる信頼できるポリシー更新と、ミニバッチ更新の複数のエポックである。
トレーニング全体を通して線形および指数関数的に減衰するクリッピング範囲のアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:08:05Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。