論文の概要: Self-Supervised Exploration via Temporal Inconsistency in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2208.11361v2
- Date: Tue, 27 Jun 2023 01:23:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 18:05:29.338749
- Title: Self-Supervised Exploration via Temporal Inconsistency in Reinforcement
Learning
- Title(参考訳): 強化学習における時間的不整合による自己監督探索
- Authors: Zijian Gao, Kele Xu, Yuanzhao Zhai, Dawei Feng, Bo Ding, XinJun Mao,
Huaimin Wang
- Abstract要約: 我々は,人間の学習に触発された新たな本質的な報奨を,現在の観察と歴史知識を比較して好奇心を評価することによって提示する。
提案手法は,自己教師付き予測モデルのトレーニング,モデルパラメータのスナップショットの保存,および核ノルムを用いて,異なるスナップショットの予測間の時間的矛盾を本質的な報酬として評価することを含む。
- 参考スコア(独自算出の注目度): 17.360622968442982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Under sparse extrinsic reward settings, reinforcement learning has remained
challenging, despite surging interests in this field. Previous attempts suggest
that intrinsic reward can alleviate the issue caused by sparsity. In this
article, we present a novel intrinsic reward that is inspired by human
learning, as humans evaluate curiosity by comparing current observations with
historical knowledge. Our method involves training a self-supervised prediction
model, saving snapshots of the model parameters, and using nuclear norm to
evaluate the temporal inconsistency between the predictions of different
snapshots as intrinsic rewards. We also propose a variational weighting
mechanism to assign weight to different snapshots in an adaptive manner. Our
experimental results on various benchmark environments demonstrate the efficacy
of our method, which outperforms other intrinsic reward-based methods without
additional training costs and with higher noise tolerance. This work has been
submitted to the IEEE for possible publication. Copyright may be transferred
without notice, after which this version may no longer be accessible.
- Abstract(参考訳): 疎外的な報酬設定の下では、この分野への関心が高まりつつも、強化学習は依然として困難である。
以前の試みは、内在的な報酬はスパーシティに起因する問題を軽減できることを示唆している。
本稿では、人間は現在の観察と歴史的知識を比較して好奇心を評価するため、人間学習に着想を得た新しい本質的報酬を提案する。
提案手法では,自己教師付き予測モデルのトレーニング,モデルパラメータのスナップショットの保存,および核ノルムを用いて,異なるスナップショットの予測間の時間的矛盾を本質的な報酬として評価する。
また,異なるスナップショットに対して適応的に重み付けを行う変分重み付け機構を提案する。
各種ベンチマーク環境における実験結果から,本手法の有効性が示され,トレーニングコストの増大や耐雑音性の向上を伴わず,本手法の他の固有報酬法よりも優れていた。
この作品はieeeに提出され、出版される可能性がある。
著作権は通知なしで転送され、その後、このバージョンはアクセスできなくなる。
関連論文リスト
- Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling [18.93897922183304]
本稿では,ユーザの指示に従って画像が合成される条件付き画像生成の課題に焦点をあてる。
報酬モデルからの不正確なフィードバックの悪影響を低減するために,不確実性を考慮した報酬モデルCtrl-Uを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:43:51Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for
Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。
本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。
本手法は,最先端のロバスト性および自然な精度を実現する。
論文 参考訳(メタデータ) (2022-11-01T15:24:26Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Nuclear Norm Maximization Based Curiosity-Driven Learning [22.346209746751818]
核標準(NNM)を活用した新しい好奇心を提案する。
26のアタリゲームにおいて、NNMは人間正規化スコア1.09を達成し、競争力のある本質的な報酬ベースのアプローチの2倍のスコアを得る。
論文 参考訳(メタデータ) (2022-05-21T01:52:47Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Semi-supervised Sequential Generative Models [16.23492955875404]
本稿では,個別の潜伏変数を持つ深層生成時系列モデルの学習目標について紹介する。
我々はまず、半教師付き生成モデリングの標準目標をウェイクスリープで拡張することでこの問題を克服する。
最後に,教師の強制にインスパイアされた統一的な目的を導入し,この手法が可変長監視に頑健であることを示す。
論文 参考訳(メタデータ) (2020-06-30T23:53:12Z) - Effects of sparse rewards of different magnitudes in the speed of
learning of model-based actor critic methods [0.4640835690336653]
トレーニング中に外部環境圧力を適用することで,エージェントがより速く学習できることを示す。
Hindsight Experience Replay を用いた、よく知られた Mujoco 環境におけるDeep Deterministic Policy Gradients の有効性が示されている。
論文 参考訳(メタデータ) (2020-01-18T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。