Fugu-MT 論文翻訳(概要): Self-Supervised Exploration via Temporal Inconsistency in Reinforcement Learning

論文の概要: Self-Supervised Exploration via Temporal Inconsistency in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2208.11361v2
Date: Tue, 27 Jun 2023 01:23:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-28 18:05:29.338749
Title: Self-Supervised Exploration via Temporal Inconsistency in Reinforcement Learning
Title（参考訳）: 強化学習における時間的不整合による自己監督探索
Authors: Zijian Gao, Kele Xu, Yuanzhao Zhai, Dawei Feng, Bo Ding, XinJun Mao, Huaimin Wang
Abstract要約: 我々は,人間の学習に触発された新たな本質的な報奨を,現在の観察と歴史知識を比較して好奇心を評価することによって提示する。提案手法は,自己教師付き予測モデルのトレーニング,モデルパラメータのスナップショットの保存,および核ノルムを用いて,異なるスナップショットの予測間の時間的矛盾を本質的な報酬として評価することを含む。
参考スコア（独自算出の注目度）: 17.360622968442982
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Under sparse extrinsic reward settings, reinforcement learning has remained challenging, despite surging interests in this field. Previous attempts suggest that intrinsic reward can alleviate the issue caused by sparsity. In this article, we present a novel intrinsic reward that is inspired by human learning, as humans evaluate curiosity by comparing current observations with historical knowledge. Our method involves training a self-supervised prediction model, saving snapshots of the model parameters, and using nuclear norm to evaluate the temporal inconsistency between the predictions of different snapshots as intrinsic rewards. We also propose a variational weighting mechanism to assign weight to different snapshots in an adaptive manner. Our experimental results on various benchmark environments demonstrate the efficacy of our method, which outperforms other intrinsic reward-based methods without additional training costs and with higher noise tolerance. This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible.
Abstract（参考訳）: 疎外的な報酬設定の下では、この分野への関心が高まりつつも、強化学習は依然として困難である。以前の試みは、内在的な報酬はスパーシティに起因する問題を軽減できることを示唆している。本稿では、人間は現在の観察と歴史的知識を比較して好奇心を評価するため、人間学習に着想を得た新しい本質的報酬を提案する。提案手法では,自己教師付き予測モデルのトレーニング,モデルパラメータのスナップショットの保存,および核ノルムを用いて,異なるスナップショットの予測間の時間的矛盾を本質的な報酬として評価する。また,異なるスナップショットに対して適応的に重み付けを行う変分重み付け機構を提案する。各種ベンチマーク環境における実験結果から,本手法の有効性が示され,トレーニングコストの増大や耐雑音性の向上を伴わず,本手法の他の固有報酬法よりも優れていた。この作品はieeeに提出され、出版される可能性がある。著作権は通知なしで転送され、その後、このバージョンはアクセスできなくなる。

関連論文リスト

A Temporally Correlated Latent Exploration for Reinforcement Learning [4.1101087490516575]
時間的関連潜伏探索(TeCLE)は、行動条件付き潜伏空間と時間的相関を用いた、本質的な報酬の定式化である。その結果, エージェントの探索行動は時間的相関によって決定されることがわかった。我々は,提案するTeCLEが,ベンチマーク環境でのノイズTVのアンドリティに対して堅牢であることを証明する。
論文参考訳（メタデータ） (2024-12-06T04:38:43Z)
Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling [18.93897922183304]
本稿では,ユーザの指示に従って画像が合成される条件付き画像生成の課題に焦点をあてる。報酬モデルからの不正確なフィードバックの悪影響を低減するために,不確実性を考慮した報酬モデルCtrl-Uを提案する。
論文参考訳（メタデータ） (2024-10-15T03:43:51Z)
Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文参考訳（メタデータ） (2023-02-22T18:58:09Z)
The Enemy of My Enemy is My Friend: Exploring Inverse Adversaries for Improving Adversarial Training [72.39526433794707]
敵の訓練とその変種は、敵の例に対抗して最も効果的なアプローチであることが示されている。本稿では,モデルが類似した出力を生成することを奨励する,新たな対角訓練手法を提案する。本手法は,最先端のロバスト性および自然な精度を実現する。
論文参考訳（メタデータ） (2022-11-01T15:24:26Z)
Robust Transferable Feature Extractors: Learning to Defend Pre-Trained Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文参考訳（メタデータ） (2022-09-14T21:09:34Z)
Nuclear Norm Maximization Based Curiosity-Driven Learning [22.346209746751818]
核標準(NNM)を活用した新しい好奇心を提案する。 26のアタリゲームにおいて、NNMは人間正規化スコア1.09を達成し、競争力のある本質的な報酬ベースのアプローチの2倍のスコアを得る。
論文参考訳（メタデータ） (2022-05-21T01:52:47Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)
Regularizing Variational Autoencoder with Diversity and Uncertainty Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文参考訳（メタデータ） (2021-10-24T07:58:13Z)
Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文参考訳（メタデータ） (2021-06-21T21:42:08Z)
Semi-supervised Sequential Generative Models [16.23492955875404]
本稿では,個別の潜伏変数を持つ深層生成時系列モデルの学習目標について紹介する。我々はまず、半教師付き生成モデリングの標準目標をウェイクスリープで拡張することでこの問題を克服する。最後に,教師の強制にインスパイアされた統一的な目的を導入し,この手法が可変長監視に頑健であることを示す。
論文参考訳（メタデータ） (2020-06-30T23:53:12Z)
Effects of sparse rewards of different magnitudes in the speed of learning of model-based actor critic methods [0.4640835690336653]
トレーニング中に外部環境圧力を適用することで,エージェントがより速く学習できることを示す。 Hindsight Experience Replay を用いた、よく知られた Mujoco 環境におけるDeep Deterministic Policy Gradients の有効性が示されている。
論文参考訳（メタデータ） (2020-01-18T20:52:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。