論文の概要: Nuclear Norm Maximization Based Curiosity-Driven Learning
- arxiv url: http://arxiv.org/abs/2205.10484v1
- Date: Sat, 21 May 2022 01:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:04:17.906336
- Title: Nuclear Norm Maximization Based Curiosity-Driven Learning
- Title(参考訳): 核ノルム最大化に基づく好奇心駆動学習
- Authors: Chao Chen, Zijian Gao, Kele Xu, Sen Yang, Yiying Li, Bo Ding, Dawei
Feng, Huaimin Wang
- Abstract要約: 核標準(NNM)を活用した新しい好奇心を提案する。
26のアタリゲームにおいて、NNMは人間正規化スコア1.09を達成し、競争力のある本質的な報酬ベースのアプローチの2倍のスコアを得る。
- 参考スコア(独自算出の注目度): 22.346209746751818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To handle the sparsity of the extrinsic rewards in reinforcement learning,
researchers have proposed intrinsic reward which enables the agent to learn the
skills that might come in handy for pursuing the rewards in the future, such as
encouraging the agent to visit novel states. However, the intrinsic reward can
be noisy due to the undesirable environment's stochasticity and directly
applying the noisy value predictions to supervise the policy is detrimental to
improve the learning performance and efficiency. Moreover, many previous
studies employ $\ell^2$ norm or variance to measure the exploration novelty,
which will amplify the noise due to the square operation. In this paper, we
address aforementioned challenges by proposing a novel curiosity leveraging the
nuclear norm maximization (NNM), which can quantify the novelty of exploring
the environment more accurately while providing high-tolerance to the noise and
outliers. We conduct extensive experiments across a variety of benchmark
environments and the results suggest that NNM can provide state-of-the-art
performance compared with previous curiosity methods. On 26 Atari games subset,
NNM achieves a human-normalized score of 1.09, which doubles that of
competitive intrinsic rewards-based approaches. Our code will be released
publicly to enhance the reproducibility.
- Abstract(参考訳): 強化学習における過度の報酬のスパース性に対処するために、研究者は、エージェントに新しい状態への訪問を奨励するなど、将来の報酬を追求するのに便利なスキルを学ぶための内在的な報酬を提案している。
しかし,本質的な報酬は,好ましくない環境の確率性や,その政策を監督するためのノイズ値予測を直接適用することで,学習性能や効率を向上させるのに有害である。
さらに、以前の多くの研究では、探鉱のノベルティを測定するために$\ell^2$ ノルムまたは分散を用いており、これは平方演算によるノイズを増幅する。
本稿では,核規範最大化(nnm)を活用し,騒音や異常に対して高い耐性を保ちながら,より正確に環境を探索する新しさを定量化する新たな好奇心を提案する。
我々は,様々なベンチマーク環境に対して広範な実験を行い,NNMが従来の好奇心法と比較して最先端の性能を提供できることを示唆した。
26のAtariゲームサブセットでは、NNMは人間正規化スコア1.09を達成し、競合する本質的な報酬ベースのアプローチの2倍になる。
私たちのコードは再現性を高めるために公開されます。
関連論文リスト
- The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards [34.636688162807836]
VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。
我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。
ノイズを緩和する新しい報奨関数であるBiMIを導入する。
論文 参考訳(メタデータ) (2024-09-24T09:45:20Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - DEIR: Efficient and Robust Exploration through
Discriminative-Model-Based Episodic Intrinsic Rewards [2.09711130126031]
探索は強化学習(RL)の基本的側面であり,その有効性はRLアルゴリズムの性能決定要因である。
近年の研究では、観察における新規性から推定される本質的な報酬による探索を奨励する効果が示されている。
条件付き相互情報項による本質的な報酬を理論的に導出する新手法であるDEIRを提案する。
論文 参考訳(メタデータ) (2023-04-21T06:39:38Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Self-Supervised Exploration via Temporal Inconsistency in Reinforcement
Learning [17.360622968442982]
我々は,人間の学習に触発された新たな本質的な報奨を,現在の観察と歴史知識を比較して好奇心を評価することによって提示する。
提案手法は,自己教師付き予測モデルのトレーニング,モデルパラメータのスナップショットの保存,および核ノルムを用いて,異なるスナップショットの予測間の時間的矛盾を本質的な報酬として評価することを含む。
論文 参考訳(メタデータ) (2022-08-24T08:19:41Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。