論文の概要: Self-Supervised Exploration via Temporal Inconsistency in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2208.11361v1
- Date: Wed, 24 Aug 2022 08:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:10:41.052918
- Title: Self-Supervised Exploration via Temporal Inconsistency in Reinforcement
Learning
- Title(参考訳): 強化学習における時間的不整合による自己監督探索
- Authors: Zijian Gao, Kele Xu, HengXing Cai, Yuanzhao Zhai, Dawei Feng, Bo Ding,
XinJun Mao, Huaimin Wang
- Abstract要約: 我々は,人間の学習に触発された新たな本質的な報奨を,現在の観察と歴史知識を比較して好奇心を評価することによって提示する。
我々は核規範を用いて、異なるスナップショットの予測間の時間的矛盾を評価し、本質的な報酬としてさらに展開することができる。
以上の結果から,本手法は他の本質的な報酬に基づく手法と比較して,最先端の性能を圧倒的に向上できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 16.919881890002397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world scenarios, reinforcement learning under sparse-reward
synergistic settings has remained challenging, despite surging interests in
this field. Previous attempts suggest that intrinsic reward can alleviate the
issue caused by sparsity. In this paper, we present a novel intrinsic reward
that is inspired by human learning, as humans evaluate curiosity by comparing
current observations with historical knowledge. Specifically, we train a
self-supervised prediction model and save a set of snapshots of the model
parameters, without incurring addition training cost. Then we employ nuclear
norm to evaluate the temporal inconsistency between the predictions of
different snapshots, which can be further deployed as the intrinsic reward.
Moreover, a variational weighting mechanism is proposed to assign weight to
different snapshots in an adaptive manner. We demonstrate the efficacy of the
proposed method in various benchmark environments. The results suggest that our
method can provide overwhelming state-of-the-art performance compared with
other intrinsic reward-based methods, without incurring additional training
costs and maintaining higher noise tolerance. Our code will be released
publicly to enhance reproducibility.
- Abstract(参考訳): 現実のシナリオでは、この分野への関心が高まっているにもかかわらず、疎結合な相乗的設定下での強化学習は依然として困難である。
以前の試みは、内在的な報酬はスパーシティに起因する問題を軽減できることを示唆している。
本稿では,現在の観察と歴史的知識を比較することにより,人間は好奇心を評価するため,人間学習に触発された新たな内在的報酬を提案する。
具体的には,自己教師付き予測モデルをトレーニングし,追加トレーニングコストを発生させることなく,モデルパラメータのスナップショットを保存する。
次に、核規範を用いて、異なるスナップショットの予測間の時間的矛盾を評価し、本質的な報酬としてさらに展開することができる。
さらに,異なるスナップショットに適応的に重みを割り当てるために,変動重み付け機構を提案する。
各種ベンチマーク環境において提案手法の有効性を示す。
以上の結果から,本手法は他のインセンティブ・リワード法と比較して,訓練コストの増大や耐雑音性の向上を伴わずに,最先端性能を提供できることが示唆された。
私たちのコードは再現性を高めるために公開されます。
関連論文リスト
- Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling [18.93897922183304]
本稿では,ユーザの指示に従って画像が合成される条件付き画像生成の課題に焦点をあてる。
報酬モデルからの不正確なフィードバックの悪影響を低減するために,不確実性を考慮した報酬モデルCtrl-Uを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:43:51Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Nuclear Norm Maximization Based Curiosity-Driven Learning [22.346209746751818]
核標準(NNM)を活用した新しい好奇心を提案する。
26のアタリゲームにおいて、NNMは人間正規化スコア1.09を達成し、競争力のある本質的な報酬ベースのアプローチの2倍のスコアを得る。
論文 参考訳(メタデータ) (2022-05-21T01:52:47Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Semi-supervised Sequential Generative Models [16.23492955875404]
本稿では,個別の潜伏変数を持つ深層生成時系列モデルの学習目標について紹介する。
我々はまず、半教師付き生成モデリングの標準目標をウェイクスリープで拡張することでこの問題を克服する。
最後に,教師の強制にインスパイアされた統一的な目的を導入し,この手法が可変長監視に頑健であることを示す。
論文 参考訳(メタデータ) (2020-06-30T23:53:12Z) - Effects of sparse rewards of different magnitudes in the speed of
learning of model-based actor critic methods [0.4640835690336653]
トレーニング中に外部環境圧力を適用することで,エージェントがより速く学習できることを示す。
Hindsight Experience Replay を用いた、よく知られた Mujoco 環境におけるDeep Deterministic Policy Gradients の有効性が示されている。
論文 参考訳(メタデータ) (2020-01-18T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。