論文の概要: CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2205.00943v2
- Date: Tue, 3 May 2022 06:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 12:30:01.374420
- Title: CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning
- Title(参考訳): cclf:サンプル効率強化学習のためのコントラスト・キュリオシティ駆動学習フレームワーク
- Authors: Chenyu Sun, Hangwei Qian, Chunyan Miao
- Abstract要約: 我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
- 参考スコア(独自算出の注目度): 56.20123080771364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning (RL), it is challenging to learn directly from
high-dimensional observations, where data augmentation has recently been shown
to remedy this via encoding invariances from raw pixels. Nevertheless, we
empirically find that not all samples are equally important and hence simply
injecting more augmented inputs may instead cause instability in Q-learning. In
this paper, we approach this problem systematically by developing a
model-agnostic Contrastive-Curiosity-Driven Learning Framework (CCLF), which
can fully exploit sample importance and improve learning efficiency in a
self-supervised manner. Facilitated by the proposed contrastive curiosity, CCLF
is capable of prioritizing the experience replay, selecting the most
informative augmented inputs, and more importantly regularizing the Q-function
as well as the encoder to concentrate more on under-learned data. Moreover, it
encourages the agent to explore with a curiosity-based reward. As a result, the
agent can focus on more informative samples and learn representation
invariances more efficiently, with significantly reduced augmented inputs. We
apply CCLF to several base RL algorithms and evaluate on the DeepMind Control
Suite, Atari, and MiniGrid benchmarks, where our approach demonstrates superior
sample efficiency and learning performances compared with other
state-of-the-art methods.
- Abstract(参考訳): 強化学習(RL)では,高次元の観測から直接学習することが困難である。
それにもかかわらず、すべてのサンプルが同等に重要であるわけではないため、単により多くのインプットを注入するだけで、Q-ラーニングの不安定が生じる可能性がある。
本稿では,モデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発し,サンプルの重要度を完全に活用し,自己管理的な学習効率を向上させることにより,この問題を体系的に解決する。
提案するコントラスト・キュリオシティにより、cclfは経験のリプレイを優先順位付けし、最も有意義な拡張入力を選択し、より重要なq関数とエンコーダを定式化し、未学習のデータに集中することができる。
さらに、エージェントが好奇心に基づく報酬で探索することを奨励する。
その結果、エージェントはより有益なサンプルに焦点を合わせ、より効率的に表現不変性を学び、拡張された入力を大幅に削減することができる。
CCLFをいくつかの基本RLアルゴリズムに適用し,DeepMind Control Suite,Atari,MiniGridベンチマークで評価した。
関連論文リスト
- Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - Regularization Through Simultaneous Learning: A Case Study on Plant
Classification [0.0]
本稿では,トランスファーラーニングとマルチタスクラーニングの原則に基づく正規化アプローチである同時学習を紹介する。
我々は、ターゲットデータセットであるUFOP-HVDの補助データセットを活用し、カスタマイズされた損失関数でガイドされた同時分類を容易にする。
興味深いことに,本手法は正規化のないモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-22T19:44:57Z) - Mitigating Forgetting in Online Continual Learning via Contrasting
Semantically Distinct Augmentations [22.289830907729705]
オンライン連続学習(OCL)は、非定常データストリームからモデル学習を可能とし、新たな知識を継続的に獲得し、学習した知識を維持することを目的としている。
主な課題は、"破滅的な忘れる"問題、すなわち、新しい知識を学習しながら学習した知識を十分に記憶できないことにある。
論文 参考訳(メタデータ) (2022-11-10T05:29:43Z) - R\'enyiCL: Contrastive Representation Learning with Skew R\'enyi
Divergence [78.15455360335925]
我々はR'enyiCLという新しい頑健なコントラスト学習手法を提案する。
我々の手法は R'enyi divergence の変動的下界の上に構築されている。
我々は,R'enyi の対照的な学習目的が,自然に強い負のサンプリングと簡単な正のサンプリングを同時に行うことを示す。
論文 参考訳(メタデータ) (2022-08-12T13:37:05Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Sample-efficient Reinforcement Learning Representation Learning with
Curiosity Contrastive Forward Dynamics Model [17.41484483119774]
本稿では、CCFDM(Curiosity Contrastive Forward Dynamics Model)の学習フレームワークを検討し、よりサンプル効率の高い強化学習(RL)を実現する。
CCFDMはフォワードダイナミクスモデル(FDM)を導入し、その深層畳み込みニューラルネットワークベースのイメージエンコーダ(IE)をトレーニングするためのコントラスト学習を実行する
トレーニング中、CFDMはFDM予測誤差に基づいて生成された本質的な報酬を提供し、RLエージェントの好奇性を高めて探索を改善する。
論文 参考訳(メタデータ) (2021-03-15T10:08:52Z) - Multi-Pretext Attention Network for Few-shot Learning with
Self-supervision [37.6064643502453]
補助的なサンプルに依存しない自己教師付き学習のための,新しい拡張不要な手法を提案する。
さらに,従来の拡張信頼手法とGCを組み合わせるために,特定の注意機構を利用するマルチテキスト注意ネットワーク(MAN)を提案する。
miniImageNetおよびtieredImageNetデータセット上でMANを幅広く評価し、提案手法が最新(SOTA)関連手法より優れていることを実証した。
論文 参考訳(メタデータ) (2021-03-10T10:48:37Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。