論文の概要: Intrinsically Motivated Self-supervised Learning in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2106.13970v1
- Date: Sat, 26 Jun 2021 08:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 14:00:27.984187
- Title: Intrinsically Motivated Self-supervised Learning in Reinforcement
Learning
- Title(参考訳): 強化学習における動機づけ型自己教師型学習
- Authors: Yue Zhao, Chenzhuang Du, Hang Zhao, Tiejun Li
- Abstract要約: 視覚に基づく強化学習(RL)タスクでは、補助タスクに自己監督的損失を割り当てることが一般的である。
強化学習(IM-SSR)における本質的動機づけ型自己監督学習(Intivically Motivated Self-Supervised Learning)という,自己監督的損失を本質的な報酬として活用する,シンプルかつ効果的なアイデアを提案する。
自己監督的損失は、新しい状態の探索やニュアンス除去による改善として堅牢性を示す。
- 参考スコア(独自算出の注目度): 15.809835721792687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In vision-based reinforcement learning (RL) tasks, it is prevalent to assign
the auxiliary task with a surrogate self-supervised loss so as to obtain more
semantic representations and improve sample efficiency. However, abundant
information in self-supervised auxiliary tasks has been disregarded, since the
representation learning part and the decision-making part are separated. To
sufficiently utilize information in the auxiliary task, we present a simple yet
effective idea to employ self-supervised loss as an intrinsic reward, called
Intrinsically Motivated Self-Supervised learning in Reinforcement learning
(IM-SSR). We formally show that the self-supervised loss can be decomposed as
exploration for novel states and robustness improvement from nuisance
elimination. IM-SSR can be effortlessly plugged into any reinforcement learning
with self-supervised auxiliary objectives with nearly no additional cost.
Combined with IM-SSR, the previous underlying algorithms achieve salient
improvements on both sample efficiency and generalization in various
vision-based robotics tasks from the DeepMind Control Suite, especially when
the reward signal is sparse.
- Abstract(参考訳): 視覚に基づく強化学習(RL)タスクでは、補助的なタスクに自己監督的損失を割り当て、より意味的な表現を得、サンプル効率を向上させることが一般的である。
しかし、表現学習部と意思決定部とが分離されているため、自己監督補助タスクの豊富な情報は無視されている。
補助課題における情報を十分に活用するために,本質的動機づけ自己教師付き学習(im-ssr)と呼ばれる自己教師付き学習を本質的報酬として活用する,単純かつ効果的なアイデアを提案する。
自己教師付き損失を,新しい状態の探索とニュアサンス除去によるロバスト性改善として分解できることを形式的に示す。
IM-SSRは、余分なコストを伴わずに、自己監督的な補助目標を持つ強化学習に力ずくで接続することができる。
IM-SSRと組み合わせることで、DeepMind Control Suiteの様々なビジョンベースのロボットタスクにおいて、サンプル効率と一般化の両方において、特に報酬信号が不足している場合には、優れた改善が達成される。
関連論文リスト
- Auxiliary Reward Generation with Transition Distance Representation
Learning [20.150691753213817]
強化学習(RL)は、逐次意思決定問題に挑戦する上で、その強みを示している。
RLの報酬関数は、タスク完了度合いの尺度として機能するため、学習性能に不可欠である。
状態間の遷移距離を計測できる新しい表現学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-12T05:13:44Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Composite Learning for Robust and Effective Dense Predictions [81.2055761433725]
マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。
自己監督型(補助的)タスクと密接な予測(目標)タスクを共同でトレーニングすることで、目標タスクの性能を継続的に向上し、補助タスクのラベル付けの必要性を排除できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T17:59:16Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Evaluating the Robustness of Self-Supervised Learning in Medical Imaging [57.20012795524752]
自己監督は、小さな注釈付きデータセット上でターゲットタスクを訓練する際の効果的な学習戦略であることを示した。
本研究では,自己監視学習によって訓練されたネットワークが,医療画像の文脈における完全監視学習と比較して,堅牢性と汎用性に優れていることを示した。
論文 参考訳(メタデータ) (2021-05-14T17:49:52Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。