論文の概要: Contrastive Variational Reinforcement Learning for Complex Observations
- arxiv url: http://arxiv.org/abs/2008.02430v2
- Date: Mon, 9 Nov 2020 07:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:34:36.684942
- Title: Contrastive Variational Reinforcement Learning for Complex Observations
- Title(参考訳): 複素観測のためのコントラスト変動強化学習
- Authors: Xiao Ma, Siwei Chen, David Hsu, Wee Sun Lee
- Abstract要約: 本稿では,DRLにおける複雑な視覚的観察に取り組むモデルベース手法であるContrastive Variational Reinforcement Learning (CVRL)を提案する。
CVRLは、潜伏状態と観測者の相互情報を識別的に最大化することで、対照的な変動モデルを学習する。
標準的なMujocoタスク上で、最先端のモデルベースのDRLメソッドと同等のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 39.98639686743489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning (DRL) has achieved significant success in various
robot tasks: manipulation, navigation, etc. However, complex visual
observations in natural environments remains a major challenge. This paper
presents Contrastive Variational Reinforcement Learning (CVRL), a model-based
method that tackles complex visual observations in DRL. CVRL learns a
contrastive variational model by maximizing the mutual information between
latent states and observations discriminatively, through contrastive learning.
It avoids modeling the complex observation space unnecessarily, as the commonly
used generative observation model often does, and is significantly more robust.
CVRL achieves comparable performance with state-of-the-art model-based DRL
methods on standard Mujoco tasks. It significantly outperforms them on Natural
Mujoco tasks and a robot box-pushing task with complex observations, e.g.,
dynamic shadows. The CVRL code is available publicly at
https://github.com/Yusufma03/CVRL.
- Abstract(参考訳): 深層強化学習(drl)は,操作やナビゲーションなど,さまざまなロボットタスクで大きな成功を収めている。
しかし、自然環境における複雑な視覚観察は依然として大きな課題である。
本稿では,DRLにおける複雑な視覚的観察に取り組むモデルベース手法であるContrastive Variational Reinforcement Learning (CVRL)を提案する。
cvrlは、対比学習を通じて潜在状態と観測の間の相互情報を最大化し、対比変動モデルを学ぶ。
一般的に使用される生成観測モデルがしばしば行うように、複雑な観測空間のモデル化は不要であり、より堅牢である。
CVRLは、標準的なMujocoタスクにおける最先端のモデルベースDRLメソッドと同等のパフォーマンスを実現する。
自然のムジョコタスクや、ダイナミックシャドウのような複雑な観察を伴うロボットボックスプッシュタスクで、これらを著しく上回っている。
CVRLコードはhttps://github.com/Yusufma03/CVRLで公開されている。
関連論文リスト
- M2CURL: Sample-Efficient Multimodal Reinforcement Learning via Self-Supervised Representation Learning for Robotic Manipulation [0.7564784873669823]
マルチモーダルコントラスト非教師強化学習(M2CURL)を提案する。
提案手法は,効率的な表現を学習し,RLアルゴリズムの高速収束に寄与する,新しいマルチモーダル自己教師学習技術を用いている。
Tactile Gym 2シミュレータ上でのM2CURLの評価を行い、異なる操作タスクにおける学習効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-01-30T14:09:35Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - CLOUD: Contrastive Learning of Unsupervised Dynamics [19.091886595825947]
コントラスト推定により、完全に教師のない方法で前方・逆ダイナミクスを学習することを提案する。
目標指向計画や観察からの模倣など,さまざまなタスクにまたがるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-23T15:42:57Z) - CRL: Class Representative Learning for Image Classification [5.11566193457943]
本稿では,ZSLの影響を受けやすいクラス代表学習モデル(CRL)を提案する。
CRLモデルでは、まず、畳み込みニューラルネットワーク(CNN)から抽出された特徴を集約することにより、データセットのクラスを表現するクラス代表を構築する。
提案したCRLモデルは,ZSLおよびモバイル深層学習における最先端の研究と比較して,優れた性能を示した。
論文 参考訳(メタデータ) (2020-02-16T17:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。