論文の概要: Does Self-supervised Learning Really Improve Reinforcement Learning from
Pixels?
- arxiv url: http://arxiv.org/abs/2206.05266v1
- Date: Fri, 10 Jun 2022 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:17:20.328202
- Title: Does Self-supervised Learning Really Improve Reinforcement Learning from
Pixels?
- Title(参考訳): 自己教師付き学習はピクセルからの強化学習を本当に改善するのか?
- Authors: Xiang Li, Jinghuan Shang, Srijan Das and Michael S. Ryoo
- Abstract要約: SSLとRLの損失を共同で最適化するコントラスト強化学習フレームワーク(例:CURL)を拡張します。
我々の観察では、既存のRLのSSLフレームワークは、ベースラインよりも有意義な改善をもたらしていないことを示唆している。
実際のロボット環境を含む複数の異なる環境におけるアプローチの評価を行った。
- 参考スコア(独自算出の注目度): 42.404871049605084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether self-supervised learning (SSL) can improve online
reinforcement learning (RL) from pixels. We extend the contrastive
reinforcement learning framework (e.g., CURL) that jointly optimizes SSL and RL
losses and conduct an extensive amount of experiments with various
self-supervised losses. Our observations suggest that the existing SSL
framework for RL fails to bring meaningful improvement over the baselines only
taking advantage of image augmentation when the same amount of data and
augmentation is used. We further perform an evolutionary search to find the
optimal combination of multiple self-supervised losses for RL, but find that
even such a loss combination fails to meaningfully outperform the methods that
only utilize carefully designed image augmentations. Often, the use of
self-supervised losses under the existing framework lowered RL performances. We
evaluate the approach in multiple different environments including a real-world
robot environment and confirm that no single self-supervised loss or image
augmentation method can dominate all environments and that the current
framework for joint optimization of SSL and RL is limited. Finally, we
empirically investigate the pretraining framework for SSL + RL and the
properties of representations learned with different approaches.
- Abstract(参考訳): 我々は,自己教師付き学習(SSL)が画素からオンライン強化学習(RL)を改善できるかどうかを検討する。
我々は、SSLとRLの損失を共同で最適化するコントラスト強化学習フレームワーク(例えば、CURL)を拡張し、様々な自己監督的損失を伴う大規模な実験を行う。
以上の結果から,RL の既存のSSLフレームワークは,同じ量のデータと拡張を使用する場合にのみ,画像の増大を生かして,ベースラインに有意義な改善をもたらすことが示唆された。
さらに,複数の自己教師付き損失の最適組み合わせを求める進化的探索を行うが,そのような損失の組み合わせであっても,注意深く設計された画像拡張のみを利用する手法を有意義に上回ることは不可能である。
多くの場合、既存のフレームワークでの自己監督的損失の使用はRLのパフォーマンスを低下させた。
実世界のロボット環境を含む複数の環境におけるアプローチの評価を行い、単一自己監督的損失や画像拡張手法がすべての環境を支配できないこと、SSLとRLの協調最適化のための現在のフレームワークが限定されていることを確認する。
最後に、SSL + RLの事前学習フレームワークと、異なるアプローチで学習した表現の性質を実証的に検討する。
関連論文リスト
- Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Knowledge Graph Reasoning with Self-supervised Reinforcement Learning [30.359557545737747]
本稿では,RLトレーニング前の政策ネットワークを温めるための自己指導型事前学習手法を提案する。
教師付き学習段階において、エージェントはポリシーネットワークに基づいて行動を選択し、生成されたラベルから学習する。
我々のSSRLモデルは、すべてのHits@kおよび平均相互ランク(MRR)メトリクスにおいて、現在の最先端結果と一致または超えていることを示す。
論文 参考訳(メタデータ) (2024-05-22T13:39:33Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている
我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。
オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-29T17:29:08Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Improving Zero-shot Generalization in Offline Reinforcement Learning
using Generalized Similarity Functions [34.843526573355746]
強化学習(Reinforcement Learning, RL)エージェントは、複雑な逐次意思決定タスクの解決に広く用いられているが、訓練中に見えないシナリオに一般化することが困難である。
RLにおける一般化のためのオンラインアルゴリズムの性能は、観測間の類似性の評価が不十分なため、オフライン環境では妨げられることを示す。
本稿では, 一般化類似度関数(GSF)と呼ばれる新しい理論的動機付けフレームワークを提案する。このフレームワークは, 競合学習を用いてオフラインのRLエージェントを訓練し, 期待される将来の行動の類似性に基づいて観測を集約する。
論文 参考訳(メタデータ) (2021-11-29T15:42:54Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。